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本 书 以 数据 的 常用 统计 分 析 方 法 为 基础 , 在 简明 扼要 地 阐述 统计 学 基本 概 





















































\ 体 的 例子 说 明 统计 问题 求解 的 过 程 





本 书 注重 思想 性 、 实 用 性 和 可 操作 性 . 在 内 容 的 安排 上 不 
计 分 析 中 的 探索 性 数据 分 析 、 参 数 的 估计 与 假设 检验 , 还 包括 的 非 参 数 统计 分 
析 的 常用 方法 、 多 元 统计 分 析 方法 及 贝 叶 斯 统计 分 析 方 法 . 每 一 部 分 都 通过 具 























念 、 基 本 思想 与 基本 方法 的 基础 上 ， 讲 述 与 之 相对 应 的 及 函数 
和 








的 实现 ， 并 通过 














仅 包 含 了 基础 统 
































体例 子 重 点 讲述 解决 问题 的 思想 、 方 法 和 在 及 中 上 

















的 实现 过 程 . 通过 本 书 读者 不 




















仅 可 以 快速 学 会 及 的 基本 原理 与 核心 内 容 ， 而 











且 














民 据 提供 的 例子 与 相应 的 及 程 


序 学 会 解决 问题 的 统计 计算 方法 与 基本 的 编程 技术 , 为 解决 更 为 复杂 的 统计 问 


题 黄 定 扎实 的 基础 , 








本 书 可 作为 各 专业 本 科 生 、 研究生 数理 统计 或 应 用 统计 课程 的 基础 

















教材 








或 实验 教材 ,也 可 作为 从 事 数 据 统 计 分 析 研 究 人 员 、 工 程 技术 人 员 的 了 


参考 读物 . 








[ 具 书 或 





统计 学 的 
出 一 定 的 结论 











究 统 计 学 方法 的 理论 基础 
本 质 来 讲 ,， 是 一 门 实 月 
因此 数理 统计 的 理论 与 方法 应 该 与 实际 相 结 合 ， 
、 生 物 制药 、 航 空 航天 、 质 量 管 开 











次 , 统计 学 就 








域 有 着 广泛 的 应 用 。 
会 、 经 济 、 工 农业 生产 





的 方法 与 型 
问题 的 那 一 部 分 ,构成 了 所 1 
昌 性 很 强 的 科学 , 它 在 人 类 活动 的 各 个 领 





任务 是 研究 有 关 收 集 、 整 理 、 分 析 数 据 ， 从 而 对 所 考察 的 问 


题 作 


= 




















LE 论 . 作为 一 门 科学 , 统计 学 有 














坚实 的 理论 基础 ， 研 








胃 数 到 


统计 学 的 内 容 。 其 
























































杂 、 变 量 之 间 关 





各 种 问题 。 最 后 ， 统 六 





门 技术 


学 又 是 























生 很 强 的 科学 ，|1 




















E、 环境 资源 等 领域 
于 所 研究 问题 起 





坚决 社 
中 的 
来 越 














联 性 越 越 强 、 数 据 的 规模 越 来 越 大 , 使 得 原 有 的 计算 方法 无 





法 实现 . 现在 ， 随 着 计算 机 的 不 断 发 展 与 普及 , 特别 是 近 20 年 来 统计 计算 的 突 





破 性 进展 及 统计 软 








且 越 来 越 容 易 、 快 
目前 许多 大 学 几乎 所 有 


束 . 











的 理工 科 ， 


























件 的 不 断 完善 和 成 熟 , 使 得 解决 这 些 问题 不 仅 成 为 可 能 ， 而 





至 文科 的 许多 专业 都 开设 了 《数理 


统计 》 或 《应 用 统计 》 之 类 的 课程 , 有 的 还 编写 了 相应 的 教材 ， 这 是 令 人 可 








-加 


一 








法 与 实际 背景 ， 并 配 有 一 定数 量 
数学 专业 的 学 











应 














生 玫 



































设 SPSS 或 EViews 统 计 软 件 , 但 这 还 远 远 不 够 . 











的 . 这 些 课程 与 教材 的 共同 特点 是 以 较 大 的 篇 幅 介 绍 数理 统计 的 理论 、 方 














的 例子 和 习题 . 部 分 学 校 还 为 有 统计 专业 和 
F 设 SAS 或 Matlab 统 计 软 件 ， 为 经 济 统计 专业 的 学 生 开 








作者 长 期 从 事 概 率 论 与 数理 统计 、 统 计 计 算 及 统计 软件 的 教学 工作 , 我 








门 发 现 目前 的 统计 教学 
时 下 ， 对 于 非 统 计 专业 的 学 生 采 有 





普遍 存在 的 问题 有 : 























的 重要 怕 







































































期 (54 课 时 或 更 少 ) 讲 授 概率 论 与 数理 统计 ， 面 面 俱 
学 到 诸如 回归 分 析 与 方差 分 书 
支持 , 使 用 传统 的 教学 方法 和 教材 , 无 论 是 老师 讲 





统计 专业 学 生 














都 要 花费 大 量 的 时 间 进 行 手工 计算 ,是 
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的 重要 内 容 . 二 、 关 于 软 从 


朋 





错误 率 高 . 使 用 软 伯 


、 关 于 教学 内 容 : 在 有 
的 教学 方式 ， 过 多 强调 理论 
E， 从 而 忽视 了 统计 思想 和 数据 处 理 能 力 的 培养 ; 有 的 因 
的 概率 论 教 学 使 学 生 无 法 
教学 : 由 于 没有 


孚 例题 ， 还 是 学 生 完 成 习 




















限 的 课 























为 仅 用 一 学 


公 











软 











[可 使 数据 分 析 更 


























.II . 








直观 性 、 灵 活性 和 可 重复 性 , 可 起 到 举一反三 的 作用 , 提高 学 生 的 学 习 兴趣 和 
动手 (操作 或 编程 ) 能 力 . 三 、 关 于 统计 教学 与 软件 教学 是 否 分 开 : 统计 教学 与 






























































软件 教学 分 开 教 学 会 产生 一 定 的 重复 性 ， 从 而 浪费 有 限 教学 课时 ,降低 学 习 的 
效率 . 分 开 的 教学 会 使 大 部 分 非 统计 专 业 的 学 生 不 能 得 到 统计 软件 操作 和 数 








据 分 析 能 力 的 培养 . 有 了 统计 软件 ， 
培养 学 生 统计 软件 的 上 机 操作 能 


























可 大 大 增加 教学 的 信息 量 、 节 省 时 间 用 于 
; 有 了 统计 软件 , 使 得 大 规模 或 海量 数据 





























分 析 和 精确 计算 成 为 可 能 ， 也 使 教材 中 的 许多 附 表 (如 常用 分 布 的 分 位 数 表 ) 失 




















去 其 必要 性 . 四 、 关 于 及 软件 : 本 书 之 所 以 采用 及 软件 , 主要 原因 是 其 强大 的 数 











据 的 图 形 展示 和 统计 分 析 功 能 、 免 
性 的 软件 包 . 而 SAS、Matlab、SPSS 
同 的 S-PLUS 也 是 收费 的 . RR 高 效 的 











计 软 件 辅助 的 统计 教学 成 为 可 能 . 基于 RR 开发 的 羔 单 式 驱 动 的 图 形 界面 工具 R 
Commander 和 PMG( 见 附录 B) 使 得 基础 统计 分 析 像 SPSS 一 样 容易 实现 . 

















费 使 用 和 更 新 及 大 量 可 随时 加 载 的 有 和 针对 
、EViews 却 都 是 收费 软件 , 与 RR 功能 几乎 相 
尺码 、 简 洁 的 输出 和 强大 的 帮助 系统 使 统 


















































本 书 介绍 了 R 的 基本 功能 、 常 



































的 数据 处 理 与 分 析 方 法 及 它们 在 及 中 的 实 





现 . 全 书 共 分 十 一 章 及 三 个 附录 : 第 一 章 , R 介绍 . 介绍 了 及 软件 的 功能 与 安 











装 . 第 二 章 , 及 的 基本 原理 与 核心 . 









































简明 扼要 地 介绍 了 有 软件 的 使 用 方法 , 主 











常用 的 离散 与 连续 型 分 布 及 及 中 有 关 的 四 类 函数 : 分 布 函 数 、 概 率 函数 、 分 位 


数 函 数 和 随机 数 生存 函数 . 第 四 章 , 探索 性 数据 分 析 . 介绍 了 单 组 和 多 组 数据 
中 特征 量 的 提取 方法 及 数据 的 图 形 展示 方法 . 第 五 章 , 参数 估计 . 主要 介绍 了 





单 总 体 与 两 总 体 正 态 及 二 项 分 布 参 





数 的 点 估计 与 区 间 估 计 . 第 六 章 , 参数 的 假 





























设 检验 .主要 介绍 了 单 总 体 与 两 总 








休 正 态 及 二 项 分 布 参数 的 假设 检验 ， 第 七 











章 , 非 参数 的 假设 检验 . 主要 介绍 了 常用 的 几 个 非 参 数 检 验方 法 . 第 八 章 , 方 



































差分 析 . 主要 介绍 了 多 组 数据 比较 





的 单 因 子 与 双 因 子 方差 分 析 及 协 方差 分 析 











方法 . 第 九 章 , 回归 分 析 与 相关 分 析 . 介绍 了 随机 变量 之 间 关 系 的 度量 与 回归 
分 析 及 诊断 方法 .第 十 章 , 多 元 统计 分 析 介 绍 ， 介绍 了 多 元 分 析 中 常用 的 主 








成 分 分 析 、 因 子 分 析 、 判 别 分 析 、 聚 类 分 析 、 典 型 相关 分 析 及 对 应 分 析 方 法 . 
第 十 一 章 ,， 贝 叶 斯 统计 分 析 . 介绍 了 贝 叶 斯 分 析 中 单 参数 与 多 参数 模型 、 分 

































































层 模型 及 回归 模型 的 分 析 方 法 . 最 后 是 附录 , 附录 B 介 绍 了 基于 R 开 发 的 基础 


















































统计 分 析 的 菜单 式 工 具 R Commander 和 PMG, 附录 C 介 绍 了 R 的 3 个 编程 环境 : R 
WinEdt、Tinn-R 及 SciViews-R. 全 书 在 所 有 程序 都 在 及 的 2.6.0 版 本 上 调试 通 
过 , 原则 上 在 其 它 版 本 上 也 可 以 运行 . 




















本 书 的 特点 是 : 注 


| 














重 统计 思想 、 

















实用 性 和 可 操作 性 , 我们 在 内 容 的 设计 上 





尽 可 能 简化 统计 理论 与 方法 的 推导 过 程 , 对 于 主要 的 统计 知识 都 通过 一 个 具体 


























例子 展开 、 讲 清 要 解决 问题 的 思想 、 方 法 和 具体 的 实现 过 程 . 所 有 方法 的 实现 


















































都 有 相应 的 及 函数 的 调用 格式 ， 而 例子 讲解 的 及 程序 都 全 部 嵌入 在 正文 中 , 便 
于 读者 举一反三 , 解答 习题 或 进行 其 它 类 似 的 数据 分 析 
























































本 书 可 作为 各 专业 本 科 生 、 研究生 数 




















里 统计 或 应 用 统计 课程 的 基础 教材 























或 实验 教材 ,也 可 作为 从 事 数据 统计 分 析 研 究 人 员 、 工 程 技术 人 员 的 工具 书 或 



































































































































参考 读物 . 本 书 整个 教材 的 教学 安排 可 考虑 以 1:3 的 比例 安排 上 机 时 间 . 具体 教 
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9 及 的 安装 与 运行 
0 及 程序 包 的 安装 与 运行 








81.1 ”S 语 言 与 BR 








及 是 一 个 有 着 强大 统计 分 析 及 作 图 功能 的 软件 系统 , 在 GNU 协 议 General 
Public Licence 下 免费 发 行 , 最 先是 由 Ross Ihaka 和 Robert Gentleman 共 同 























创立 , 现在 由 忆 姑 
愿 、 工 作 努 力 负责 ， 并 将 全 球 优秀 的 统计 应 用 软 伯 























F 发 核心 小 组 (R Development Core Team) 维 护 , 他 们 完全 自 
F 打 包 提 供给 我 们 共享 . 


R 可 以 看 作 是 贝尔 实验 室 (Bell Laboratories) 的 Rick Becker, John 


Chambers 和 Allan Wilks 开 发 的 S 语 言 的 一 种 实现 或 形式 ， 因 














软件 也 可 以 说 是 一 种 语言 . 8 语言 现在 主要 内 含 在 

















此 , RR 是 一 种 


IInsightfu 公 司 经 营 的 S- 


PLUS 软件 中 我们 可 以 将 已 和 S-PLUS 视 为 S 语 言 的 两 种 形式 , S/S-PLUS 方 面 






































的 文档 都 可 以 直接 用 于 R, 不 过 R 和 S 在 设计 理念 上 存在 着 许多 不 同 , 关于 











这 方面 的 详细 内 容 大 家 可 以 参考 Ihaka & Ge 























的 R-FAQL6]， 本 : 








ntleman (1996) 或 随 RR 同 时 发 布 


今后 主要 使 用 R, 有 时 也 使 用 及 软件 、 及 语言 或 及 系统 来 称呼 





























这 种 形式 的 S 语 言 . 








现在 越 来 越 多 的 人 ] 


SE 


2 及 的 特点 








要 包括 : 


1) 免费 : 尽管 s-PLUS 是 非常 优秀 的 统计 分 析 软 件 , 但 你 需要 文 
而 及 是 一 个 免费 的 统计 分 析 软 件 (环境 ); 
2) 浮 点 运算 功能 强大 : 及 可 以 作为 
f 不 需要 编译 就 可 执行 代码 ; 














档 


于 始 接触 、 学 习 和 使 


























jR, 因为 它 有 其 显 


台 高 级 科学 计算 器 , 因 











著 的 优点 , 主 














付 





一 笔 费用 ， 





为 及 同 MatlLab 一 


3) 不 依赖 于 操作 系统 : 及 可 以 在 运行 于 UNIX, Linux, Windows 和 Macintosh 


4 


— 


一 


7) 





的 操作 系统 上 ， 它 们 的 安装 文人 
(Comprehensive R Archive Network) 社区 上 下 载 ; 
善 : 及 黎 入 了 一 个 非常 实用 的 帮助 系统 一 随 软件 所 附 
时 通过 主 菜 单打 开 浏 览 或 打印 . 通过 help 命 
使 用 方法 和 例子 ; 
片 展示 在 一 个 独立 的 窗 
列 如 jpg, png, bmp, ps, pdf, emf， 


Ab 于 
用 


帮助 功 





的 pdf 或 html 帮 助 文件 可 以 随 
令 可 随时 了 解 及 所 提供 的 各 
内 嵌 的 作 
并 能 将 之 保存 为 各 种 形式 的 文件 
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作 图 功能 强大 : 
口中 ， 
pictex, xfig); 














统计 分 析 能 力 尤 为 突出 : RR 内 风 了 许多 实 月 








疆 


一 口 


果 也 能 被 直接 显示 出 来 ， 





可 保存 到 专门 的 文件 中 , 也 可 以 直接 


























类 


医 | 





函数 的 
函数 能 将 产生 的 图 
( 
































一 些 中 间 结 果 ( 如 p- 值 、 
用 于 进 





























及 的 部 分 统计 功能 整合 在 及 语言 的 底层 ， 





























F 以 及 安装 说 明 都 可 以 在 CRAN 








的 统计 分 析 函 数 , 统计 分 析 的 
回归 系数 、 残 差 等 ) 既 
步 的 分 析 . 
晶 是 大 多 数 功 能 则 以 包 的 形式 


提供 . 大 约 有 25 个 包 和 RR 同 时 发 布 (被 称 为 “标准 ”和 “推荐 ” 包 ), 更 多 的 
包 可 以 通过 网 上 或 其 CRAN 社区 (http://CRAN.R-project.org) 得 到 , 它们 




















都 配 有 完整 的 pdf 帮助 文件 , 且 





过 在 线 ( 或 下 载 后 ) 安 装 并 力 
析 ; 
可 移植 性 强 : 
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0 裁 后 就 可 融入 原来 的 有 














版 本 会 随 了 及 新 版 本 的 发 行 得 到 更 新 , 通 


FP, 实现 有 针对 性 的 分 














e 及 程序 容易 地 移植 到 S-PLUS 程 序 中 ; 反之 S-PLUS 的 许多 过 程 





稍 作 修改 可 用 于 了 R:; 























直接 或 





e。 及 与 Matlab 有 许多 相似 的 地 方 , 如 都 可 作为 高 级 计算 器 , 都 可 不 经 
过 编译 直接 运行 源 代码, 但 是 及 侧重 于 统计 分 析 , 而 Matlab 侧 重 于 
工程 , 例如 信号 处 理 . 现在 通过 R.Matlab 程 序 包 可 实现 两 者 之 间 许 
多 功能 的 共享 , 具体 见 程序 的 说 明 . 



























































1.3 及 的 资源 2 





e 许多 常用 的 统计 分 析 软 件 ( 如 SPSS, SAS, Stata 及 EExcel) 的 数据 文 
件 都 可 读 入 R, 这 样 其它 软 件 的 数据 或 分 析 的 中 间 结 果 可 用 于 R., 3 
作出 进一步 的 分 析 . 

8) 较 强 大 的 拓展 与 开发 能 力 : 及 是 开发 新 的 交互 式 数据 分 析 方 法 一 个 非常 
好 的 工具 . 例如 附录 A 介 绍 的 R Commander 就 是 一 个 非常 成 功 的 例子 . 我 
们 可 以 编制 自己 的 函数 来 扩展 现 有 的 RR 语言 , 或 制作 相对 独立 的 统计 分 

析 包 . 

9) 灵活 而 不 死板 : 一 般 的 软件 往往 会 直接 展示 分 析 的 结果 ,而 RR 则 将 这 些 结 

果 都 存放 在 一 个 对 象 (object) 里 , 所 以 常常 在 分 析 执 行 结束 后 并 不 显示 

任何 结果 . 使 用 者 (特别 是 初学 者 或 非 专 业 人 员 ) 可 能 会 对 此 感到 困惑 , 其 

实 这 样 的 特点 是 非常 有 用 的 ， 因 为 我 们 可 以 有 选择 地 显示 我 们 感 兴趣 的 

结果 . 而 有 的 软件 (如 SAS 和 SPSS) 会 同时 显示 几 个 窗口 , 内 容 太 多 会 使 使 

] 者 无 从 选择 和 解释 . 
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81.3”R 的 资源 














R 的 核心 开发 与 维护 小 组 通过 R 的 主页 ， 即 R 工 程 (R Project) 网 
站 (http://www.r-project.org) 及 时 发 布 有 关 信 息 , 包括 R 的 简介 、R 的 更 新 及 
宏 包 信息 、 RR 常用 手册 、 已 经 出 版 的 关于 R 的 图 书 、R 通 讯 和 会 议 信 息 等 . 你 还 
可 通过 该 主页 预订 邮件 , 通过 电子 邮件 发 出 求助 或 提供 帮助 . 

及 的 CRAN 社 区 是 我 们 获得 软件 (及 源 代 码 ) 和 资源 的 主要 场所 , 通过 它 或 其 
镜像 站 点 我 们 可 以 下 载 最 新 版 本 及 大 量 的 统计 程序 包 (packages). 

本 书 将 使 用 Windows(95 及 以 后 ) 操 作 系 统 上 的 及 ,其 它 操 作 系 统 上 及 的 使 
用 方法 请 参考 及 相关 说 明 . 除了 及 自 带 的 运行 平台 R-GUI(R Graphic User’s In- 
terface) 外 , 本 书 附录 A 还 提供 了 Windows 下 几 个 及 的 运行 平台 , R-Commander， 
R-WinEdt, R-Sciview 和 R-Tinn. 
























































































































































81.4 及 的 安装 与 运行 


1.4.1 及 软件 的 安装 、 启 动 与 关闭 








及 的 安装 : 从 CRAN 社 区 下 载 最 新 的 封装 好 的 及 安装 程序 到 本 地 计算 机 ， 运 
行 可 执行 的 安装 文件 , 通常 缺 省 的 安装 目录 为 C:\Program Files\R\R-x.x.x,， 























. 4， 第 一 章 有 外 绍 





其 中 x.x.x 为 版 本 号 . 安装 时 可 以 改变 目录 ， 从 2.2.0 以 后 还 可 以 选择 中 文 作为 基 
本 语言 言 ， 这样 RGui 窗 口 的 菜单 都 是 中 文 的 . 


及 的 启动 : 安装 完成 后 点 击 桌 面 上 R, x.x.x 快 击 图 标 就 可 启动 R 的 交互 式 用 
户 窗口 (R-GUD). 及 是 按照 问答 的 方式 运行 的 ， 在 命令 提示 符 “> ”后 键 
入 命令 并 回 车 , 及 就 完成 一 些 操作 . 例如 输入 命 


> plot (rnorm(1000)) 
就 可 得 到 图 1.1, 此 命令 的 具体 含义 我 们 将 在 后 面 第 二 章 叙 述 . 





























i R Console 国 回 四 
r 人 性” 编辑 其 他 程序 向 和 助 1 
文件 编辑 其他 程序 包 各 有 iR Graphics: Device 2 (ACTIYE) 图 回 四 
文件 历史 重 设 大 才 

R : Copyright 2006, The R Foundation for 

Version 2.3.1 (2006-06-01) 

ISBN 3-900051-07?7-0 


R 是 免费 软件 和 软件， 不 承 任 何 扯 保 。 
在 某 些 条 件 下 你 可 以 将 其 自由 散布 。 
用 ' License1) 或， licencel) ' 来 看 苍 布 的 详细 


BR 是 个 合作 计划 ， 有 许多 人 为 之 做 出 了 贡献 . 
用 ' contributors(} 情况 


用 'citation() ' 会 告诉 你 如 何在 出 版 物 中 正确 


用 'demo1) ' 来 看 一 些 示 范 程 序 ， 用 'help1) ' 来 
用 'help.start1)' 通 过 HTML 浏 览 器 来 看 帮助 交 
用 'qt) ' 退 出 R. 


[原来 保存 的 工作 空间 已 还 原 ] 


> plotirnorm(1000)) 
> 





图 1.1 R 的 启动 


及 的 退出 : 在 命令 行 键入 q( ) 或 点 击 R-GUI 右 上 角 的 叉 叉 . 退出 时 可 选择 
保存 工作 空间 , 缺 省 文件 名 为 及 安装 目录 的 bin 子 目录 下 的 R.RData 以 后 可 以 
通过 命令 load( ) 或 通过 菜单 “文件 ”下 的 “ 载 入 工作 空间 ” 加载, 进而 继续 你 
前 一 次 的 工作 . 




















1.4.2 ”及 程序 包 的 安装 与 使 用 





及 程序 包 的 安装 有 三 种 方式 : 














1) 菜单 方式 : 在 已 经 联网 的 条 件 下 , 按 步 又“ 程序 包 之 安装 程序 包 … 之 选 
择 CRAN 镜 像 服务 器 一 选 定 程序 包 ” 进 行 实时 安装 ; 














2) 命令 方式 : 在 已 经 联网 的 条 件 下 , 在 命令 提示 符 后 键入 








> instal1.packages("PKname'") 

















完成 程序 包 PKname 的 安装 . 
3) 本 地 安装 : 在 无 上 网 条 件 下 ， 先 从 CRAN 社 区 下 载 需 要 的 程序 包 及 与 之 关 











联 的 程序 包 , 再 按 第 一 种 方式 通过 “程序 包 ” 菜 单 中 的 “用 本 机 的 zip 文 件 












































安装 程序 包 ” 选 定 本 机 上 的 程序 包 (zip 文 件 ) 进 行 安装 









































除 及 的 标准 程序 包 ( 如 base 包 ) 外 ， 新 安装 的 程序 包 在 使 用 前 必须 先 载 入 ， 
有 两 种 载 入 方式 : 


1) 菜单 方式 : 按 步 又 “程序 包 坊 载 入 程序 包 ...” 
需要 的 一 个 加 载 ; 





























, 再 从 已 有 的 程序 包 中 选 定 








2) 命令 方式 : 在 命令 提示 符 后 键入 





> library( “PKname” ) 





来 加 载 程序 包 PKname. 




















若 有 必要 , 我 们 还 可 通过 步骤 “程序 包 一 更 新 程序 包 …” 对 本 机 的 程序 包 
进行 实时 更 新 . 

















[a 
= 站 

EE 

已. 





注意 : 及 命令 对 大 小 写 敏 感 , 这 在 使 用 命令 方式 安装 和 载 入 程序 包 时 应 特别 汉 











第 一 章 习 题 








1.1 及 与 你 学 过 的 统计 软件 , 如 SPSS, SAS, Matlab 有 何 区 别 , 其 主要 的 特点 
有 哪些 ? 

1.2 ”到 CRAN 社 区 (http://cran.r-project.org/) 下 载 并 安装 R 的 最 新 (中 
文 ) 版 本 , 并 尝试 RR 的 启动 与 退化 . 

1.3 ”RR 可 以 作为 一 台 很 方便 的 计算 器 . 任 取 二 个 非 零 实数 , 试用 及 完成 它们 
的 加 、 减 、 乘 、 除 、 乘 方 、 开 方 、 指 数 、 对 数 等 运算 . 

1.4 ”John Fox 基 于 及 开发 了 一 套 进 行 基础 统计 分 析 的 菜单 驱动 的 分 析 系 统 ， 
称 为 R Commander. 附录 人 A 介绍 了 一 种 菜单 式 的 安装 方法 . 另 一 种 是 采用 命令 
方式 进行 安装 与 加 载 , 其 步骤 为 : 































































































1) 用 命令 

> instal1.packages("Rcmdr'") 

来 安装 程序 包 Rcmdr( 需 要 等 待 几 分 种 ); 
2) 再 用 命令 








> load("Rcemdr") 


加 载 程序 包 Remdr. 











R Commander 的 结构 与 使 用 方法 参见 附录 人 A 的 说 明 . 
1.5 animation 是 由 谢 益 辉 建 立 的 概率 统计 动态 演示 程序 包 , 请 用 命令 或 菜 
单 的 方法 安装 并 加 载 animation, 并 尝试 下 面 的 二 个 例子 : 












































。 浦 丰 投 针 试验 : 























> buffon.needle (nmax = 500, interval = 0) 
e 中 心 极限 定理 : 


> = function(n) rchisq(n, 5) 


> clt.ani(FUN = 工 ) 





上 











# 体 使 用 方法 参见 程序 包 中 的 pdf 说 明文 件 . 


























1.6 登录 及 的 社区 主页 http://cran.r-project.org/， 并 进入 左 
侧 Software 下 的 Packages, 浏览 并 感受 R 所 提供 的 资源 (程序 包 )， 选择 其 1 
感 兴趣 的 进行 安装 与 试用 , 例如 概率 统计 教学 演示 程序 包 TeachingDemos 和 其 
在 R Commander 下 的 插件 RcmdrPlugin.TeachingDemos. 
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本 章 概要 
人 及 的 基本 原理 
人 及 的 求助 方法 
4 及 的 主要 数据 结构 
4 及 的 图 形 功 能 
4 及 的 编程 方法 

















8$2.1 及 的 基本 原理 











如 第 一 章 所 述 , 如 果 R 已 经 安装 在 你 的 计算 机 中 , 它 就 能 立即 运行 一 些 可 











执行 的 命令 了 . 及 默认 的 命令 提示 符 是 > 它 表 示 正 在 等 待 输入 命令 . 如果 











一 个 语句 在 一 行 中 输 不 完 , 按 回 车 键 , 系统 会 自动 产生 一 个 续 行 符 “+”, 语句 
或 命令 输 完 后 系统 又 会 回 到 命令 提示 符 . 在 同一 行 中 输入 多 个 命令 语句 , 则 需 





























要 使 用 分 号 来 隔 开 . 在 Windows 系 统 中 , 能 直接 运行 下 拉 荣 单 EF 
令 ( 如 在 线 帮助 ， 打开 文件 等 , 见 图 1.1). 在 学 习 一 些 R 的 命令 之 前 , 让 我 们 先 了 


























解 及 的 基本 工作 原理 ， 




















因为 及 是 一 种 解释 性 语言 ， 而 不 是 编译 语言 , 也 就 

















的 一 些 操 作 命 























首先 , 同 Matlab 一 样 , 及 是 一 种 编程 语言 , 但 我 们 没有 必要 对 此 感到 害怕 ， 
意味 着 输入 的 命令 能 够 直接 


























其 次 , R 的 语法 非常 简单 和 直观 .例如 ， 线 ' 
以 z 为 自 变量 , y 为 响应 变量 来 拟 合 一 个 线性 模型 . 





























号 的 形式 , 即使 括号 内 没有 内 容 ( 如 1s( )). 如 果 直 接 输 入 函数 名 而 不 输入 贺 





被 执行 , 而 不 需要 像 其 它 语言 (如 C 和 FORTAN) 需 要 编译 和 连接 等 操作 . 





生 回 归 的 命令 lm(y~x) 表 示 
合法 的 了 及 函数 总 是 带 有 圆 括 











2.1 及 的 基本 原理 








or 














得 号 , 及 则 会 自动 显示 该 函数 的 一 些 具体 内 容 . 因此 在 及 中 所 有 的 函数 后 都 带 





























象 进行 操作 . 


有 圆 括号 以 区 别 于 对 象 (object). 当 R 运 行 时 , 所 有 变量 、 数据、 函数 及 结果 都 
以 对 象 的 形式 存 入 计算 机 的 活动 内 存 中 , 并 冠 有 相应 的 名 字 代 号 . 我 们 可 以 通 
过 一 些 运算 (如 算术 、 四 和 辑 、 比 较 等 ) 和 一 些 函 数 (其 本 身 也 是 对 象 ) 来 对 这 些 对 





















































认为 缺 省 值 ， 当 然 也 有 可 能 该 函数 本 身 就 不 含 任何 参量 . 


的 所 有 操作 都 是 针对 存储 在 活动 内 存 中 的 对 象 的 . 数据 、 
结果 或 图 表 的 输入 与 输出 都 是 通过 对 计算 机 硬盘 中 的 文件 读 写 而 实现 . 用 户 

















再 次 , 在 及 中 进行 








运行 一 个 及 函数 可 能 不 需要 设 定 任何 参量 ,原因 是 所 有 的 参量 都 可 以 被 默 

































































通过 输入 一 些 命令 调用 函数 ,分析 得 出 的 结果 可 以 被 直接 显示 在 屏幕 上 ,也 可 
以 存 入 某 个 对 象 或 被 写 入 硬盘 (如 图 片 对 象 ). 因为 产生 的 结果 本 身 就 是 一 种 对 
象 , 所 以 它们 也 能 被 视 为 数据 并 能 像 一 般 数 据 那样 被 处 理 分 析 . 数据 文件 即 可 



































从 本 地 磁盘 读 取 也 可 通过 网 络 传输 从 远程 服务 器 端 获得 . 

最 后 , 所 有 能 使 用 的 及 函数 都 被 包含 在 一 个 库 (Library) 中 , 该 库存 
放 在 R 安 装 文件 夹 的 library 目 录 下 . 这 个 目录 下 含有 具有 各 种 功能 的 
包 (packages),， 各 个 包 也 是 按照 目录 的 方式 组 织 起 来 的 ， 其 中 名 为 base 的 














包 是 RR 的 核心 , 因 




































































为 它 内 扔 




















了 Ri 语言 中 所 有 像 数 据 读 写 与 操作 这 些 最 基本 的 函 











数 . 在 上 述 目 录 中 的 每 个 包 内 ,都 有 一 个 子 目 录 R, 这 个 目录 里 又 都 含有 一 个 











与 此 包 同 名 的 文 伯 




















F, 该 文件 正 是 存放 所 有 函数 的 地 方 . 
































及 语言 中 最 简单 的 命令 催 过 于 通过 输入 一 个 对 象 的 名 字 来 显示 其 内 容 了 . 





例如 , 一 个 名 为 n 的 对 象 , 其 


>n 
[1] 10 





方 括号 中 的 数字 1 表示 从 n 的 第 一 个 元 素 开始 显示 .其实 该 命令 的 功能 在 这 里 
与 函数 print( ) 相 似 ,输出 结果 与 print (n) 相同 . 对 象 的 名 字 必 须 是 以 一 个 
字母 开头 (A-Z 或 a-z), 中 间 可 以 包含 字母 、 数 字 (0-9)、 点 (.) 及 下 划 线 (_)， 因 
为 及 对 对 象 的 名 字 区 分 大 小 
































内 容 是 数值 10: 












































写 , 所 以 z 和 XX 就 可 以 代表 两 个 完全 不 同 的 对 象 . 

















一 个 对 象 可 以 通过 赋值 操作 来 产生 , R 语 言 中 的 赋值 符号 一 般 是 由 一 个 尖 


















































反 . 赋值 也 可 以 
例如 









































括号 与 一 个 负 号 组 成 的 箭头 形 标志 , 该 符号 可 以 是 从 左 到 右 的 方向 , 也 可 以 相 
函数 assi 

















gn( ) 实 现 , 还 可 以 用 等 号 “=”, 但 它们 很 少 使 用 . 
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>n <- 10 
>n 

[1] 10 

> 10 ->n 
> 

[1] 10 

> assign("n'", 
> 

[1] 10 

> n=10 
>n 

[1] 10 


10) 























当然 你 也 可 以 只 是 输入 函数 或 表达 式 而 不 把 它 的 结果 赋 给 某 个 对 象 (如 果 这 样 
在 窗口 中 展示 的 结果 将 不 会 被 保存 到 内 存 中 ), 这 时 我 们 就 可 将 及 作为 一 个 计 











算 嚣 使用. 下 面 


外 数 ) 的 使 用 方法 . 


的 例子 说 明了 及 中 的 算术 运算 符 ( 加 、 减 、 乘 、 除 、 乘 方 、 





> ((10 + 2) * 5-2°4)/4 


[1] 13 


> sqrt(3)+exp(-2) 


[1] 1.867386 



































方 、 


更 为 常用 的 是 常量 、 向 量 、 和 矩阵 、 数 组 等 其 它 对 象 的 赋值 与 运算 , 我 们 将 在 后 

















所 有 的 高 级 语言 都 有 注释 语句 , 及 中 使 用 井 号 (#) 表 示 注 释 的 开始 . 




















82.2”R 的 在 线 帮助 












































学 习 一 门 编程 语言 离 不 开 语句 、 函 数 和 编程 的 语法 和 语义 , 及 中 的 程序 包 


都 是 由 大 量 的 进行 统计 分 析 的 函数 , 它们 的 含义 和 使 用 方法 对 于 熟练 使 用 及 进 

















行 数据 分 析 是 至 关 重 要 的 . 在 此 我 们 将 及 的 帮助 分 成 两 类 ; 


























1) 关于 及 的 基本 知识 : 通过 命令 
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> help.start( ) 











或 及 用 户 界 面 上 的 “帮助 ”菜单 的 “html 帮 助 ” 得 到 . 

















. 及 的 常见 问题 (FAQ): 系统 提供 了 二 个 版 本 , 其 一 为 “R FAQ”, 其 二 








为 “R for Windows FAQ”, 它们 随 R 的 新 版 本 同时 发 布 与 更 新 ， 内 
容 包 括 R 的 特点 、 安装 、 使用、 界面 、 编程 规则 等 . 






































i. 及 帮助 手册 , 也 随 新 版 本 发 布 与 更 新 , 共有 6 本 手册 : An Introduction 





to R, R Reference Manual, R Data input/output, R, Language Def- 
inition, Writing 及 Extensions, R Installation and Administration. 
“帮助 ”菜单 提供 了 它们 的 PDF 电 子 版 本 , 便于 打印 . 初学 者 可 看 一 
下 其 中 的 第 









































2) 关于 及 中 的 函数 或 关键 字符 : 


全 今 


> help(fun) 

或 

> ?fun 

会 立即 显示 名 为 “fun” 函 数 的 帮助 页 面 , 而 命令 

> help("char") 

则 会 显示 茶 个 具有 特殊 语法 意义 字符 “char ”的 帮助 页 面 . 页 面 的 
第 一 行 一 般 会 显示 此 函数 或 字符 的 所 属 的 程序 包 (package), 然后 是 
标题 , 标题 下 面 则 是 一 些 详细 信息 : 


Description: brief description. 



























































Usage: for a function，gives the name with all its arguments and 
the possible options (with the corresponding default values); for 


an operator gives the typical use. 
Arguments: for a function, details each of its arguments. 
Details: detailed description. 


Value: if applicable, the type of object returned by the function or 
the operator. 


See Also: other help pages close or similar to the present one. 


Examples: some examples which can generally be executed with- 


out opening the help with the function example. 
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iii. 


默认 状态 下 ， 函数 help( ) 只 会 在 被 载 入 内 存 的 程序 包 中 搜索 ， 选 
项 try.all.package 在 缺 省 值 是 FALSE, 但 如 果 把 它 设 为 TRUE， 则 可 
在 所 有 已 安装 的 程序 包 中 进行 搜索 . 如 果 读 者 确实 想 打 开 这 样 的 页 
面 而 所 属 程序 包 又 没有 被 载 入 内 存 时 ， 可 以 使 用 package 这 个 选项 . 
请 读者 试 试 下 面 的 两 个 命令 . 


> help("bs",try.all.packages=TRUE) 




































































> help("bs",package = "splines") 


分 全 


. A 


> apropos (fun) 

或 

> apropos ("fun") 

找 出 所 有 在 名 字 中 含有 指定 字符 串 “fun” 的 函数 , 但 只 会 在 被 载 入 
内 存 中 的 程序 包 中 进行 搜索 . 

注意 : 如 果 “fun” 不 是 完整 的 函数 名 , 则 前 者 会 出 错 ; 


分 -人 
命令 
























































> help.search("char") 

列 出 所 有 在 帮助 页 面 含 有 字符 “char” 的 函数 , 它 的 搜索 范围 
比 apropos ("fun") 更 广 ; 

合 今 





. 


> find(fun) 

起 

> find("fun") 

得 到 名 为 “fun” 函 数 所 在 的 程序 包 ; 


会 人 
i 令 


互 | 


> args (fun) 
成 
> args("fun'") 


得 到 名 为 “fun” 函 数 的 自 变 量 列表 . 





2.3 一 个 简短 的 及 会 话 ,13 























对 初学 者 而 言 ， 帮助 中 例子 (Examples) 部 分 的 信息 是 很 有 用 的 . 而 仔细 阅读 自 
变量 (Arguments) 中 的 一 些 说 明 也 是 非常 有 必要 的 . 帮助 中 还 包含 了 其 它 一 些 
说 明 部 分 如 注释 (Notes), 参考 文献 (References) 或 作者 (Author (s)) 等 





























82.3 ”一 个 简短 的 及 会 话 























下 面 通过 一 个 具体 的 例子 来 说 明 如 何 利用 及 软件 进行 数据 的 统计 分 析 ， 
此 例 使 用 了 及 内 嵌 的 数据 集 ntcars. 它 在 datasets( 数 据 ) 包 中 , 此 包 像 base 一 样 
随 及 的 启动 自动 加 载 . 


























数据 的 描述 


个 人 
命令 


> ?mtcars 
显示 为 





?mtcars 的 结果 


mtcars package:datasets R Documentation 





Motor Trend Car Road Tests 


Description: 
The data Was extracted from the 1974 _Motor Trend_ 
US magazine, and comprises fuel consumption and 10 
aspects of automobile design and performance for 32 
automobiles (1973-74 models). 


Usage: 


mtcars 


Format : 


A data frame with 32 observations on 11 variables. 


，1] mpg Miles/(US) gallon 
，2] cyl Number of cylinders 


[ 
[ 
[, 3] disp Displacement (cu.in.) 
[, 4] hp Gross horsepower 

[ 


,5] drat Rear axle ratio 
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[, 6] wt Weight (lb/1000) 
[, 7] qsec 1/4 mile time 
[, 8] vs V/S 

[, 9] am Transmission (0 = automatic, 1 = manual) 
[,10] gear Number of forward gears 


[,11] carb Number of carburetors 

















它 告诉 我 们 数据 集 metars 的 基本 信息 . 它 是 美国 Motor Trend 收 集 











的 1973 到 1974 年 期 间 总 共 32 辆 汽车 的 11 个 指标 : 油耗 及 10 个 与 设计 及 性 能 
方面 的 指标 . 








数据 的 浏览 与 编辑 
1) 数据 的 浏览 


。 命令 


> mtcars 
可 以 显示 数据 集 mtcars 中 全 部 的 32 个 观测 值 . 


> head (mtcars) 
仅 显 示 数 据 集 mtcars 中 前 7 个 观测 值 








> names (mtcars) 


仅 显 示 数 据 集 mtcars 中 的 变量 , 在 此 为 11 个 指标 . 


2) 数据 的 编辑 
数据 的 编辑 主要 有 两 种 方式 (函数 ): 

















。 命令 


> data.entry (mtcars) 
通过 R 的 数据 编辑 器 打开 数据 集 mtcars, 除了 浏览 数据 集 外 ， 这 上 
我 们 还 可 以 对 变量 及 其 观测 值 进行 修改 . 















































Ft 

















> MTcars <- edit(mtcars) 

同样 启动 及 的 数据 编辑 器 , 在 此 可 对 原来 的 数据 集 mtcars 进 行 编辑 ， 
完成 后 将 生成 的 新 的 数据 集 赋 给 MTcars, 而 原来 的 数据 集 保持 不 变 . 
如 果 你 要 修改 原来 的 数据 集 ， 使 命令 edit( ) 前 后 的 数据 集 同名 即 
可 . 因此 命令 edit (mtcars) 将 无 法 完成 对 数据 的 修改 . 命令 
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1) 


2) 


> xnew <- edit(data.frame( )) 



































> x <- c(10.4, 5.6, 3.1, 6.4, 21.7) 


> XX 


[1] 10.4 5.6 3.1 6.4 21.7 
> data.entry (x) 


> edit(x) 


。 命令 


> fix(mtcars) 
可 以 完成 数据 集 mtcars 的 直接 修改 . 因此 它 等 价 于 命令 


> mtcars <- edit(mtcars) 
























































使 用 上 面 的 三 个 命令 将 挂 起 R 的 对 训 
继续 进行 R 的 对 话 . 




































































可 以 编辑 生成 新 的 数据 集 xnew. 另外 , 对 于 一 维 的 数据 , edit( ) 打 


开 的 是 R Editor. 试 比较 下 面 的 例子 中 两 个 命令 的 区 别 


1 窗口 (R Console), 关闭 编辑 器 即 可 


我 们 这 里 说 的 数据 集 就 是 下 面 一 小 节 要 讲 的 数据 框 (data frame). 数据 对 











象 中 除了 上 而 已 











经 出 现 








框 和 列表 ， 前 者 启用 的 都 是 及 的 数据 编辑 器 , 后 者 有 所 不 同 : 对 了 
列表 和 数组 edit( ) 启 














尽管 我 们 在 R: 

















> mpg 

















的 向 量 和 数据 框 外 ， 下 面 一 节 还 要 讲 矩 阵 、 数组、 
和 列表 . 命令 data.entry( ) 和 edit( ) 都 可 用 于 编辑 向 量 、 和 矩阵 、 数 据 


























的 是 R Editor. 





可 以 浏 



































向 量 、 


览 与 编辑 数据 集 mtcars, 但 它们 还 无 法 对 此 数据 
集 进行 操作 (分 析 ), 例如 


无 法 看 到 变量 mpg( 每 加 仑 公里 数 ) 的 具体 数值 . 这 时 我 们 需要 激活 或 挂 





接 (attach) 数 据 集 mtcars. 命令 


> attach(mtcars) 


就 激活 mtcars, 使 之 成 为 当前 的 数据 集 . 这 时 通过 命令 


> mpg 











就 可 浏览 变量 mpg 的 32 个 值 ， 其它 分 析 我 们 将 在 后 面 进行 . 
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属性 数据 的 分 析 


变量 cy]l( 汽 拭 数 ) 为 
> table(cy1) 
告诉 我 们 变量 cyl 取 3 个 值 : 

















> barplot (table (cyl1)) 








4，6，8， 相 应 的 频数 为 11, 7, 14. 而 命令 











开间 






























































显示 了 cyl 的 频数 直方 图 . 要 注意 的 是 , 命令 
> barplot(cy1) 
在 此 不 适用 , 它 仅 适用 于 数值 型 变量 . 
数值 型 数据 的 分 析 
统计 分 析 中 主要 涉及 数值 型 数据 . 对 此 我 们 可 考查 它们 的 图 形 特 征 及 常用 
的 特征 量 . 


。 夯 茎 叶 图 
> stem(mpg). 

。 男 直方 图 , 命令 为 
> hist (mpg). 


。 男 框 须 图 
> boxplot (mpg). 


。 计算 平均 值 , 命令 为 


> mean (mpg). 


。 计算 截 去 10% 的 平均 值 ， 


> mean(mpg, trim = 





















































(stem-and-leaf plot), 命令 为 


己 / 


(stem-and-leaf plot), 命令 为 


命令 为 


1 


。 按 分 组 变量 cyl 计 算 mpg 的 分 组 平均 值 , 命令 为 
> tapply (mpg, cyl ,mean) 








e。 计算 cyl 为 4 的 那些 mpg 的 平均 值 , 命 
4]). 


> mean(mpglcyl == 


2.3 一 个 简短 的 及 会 话 人 








计算 四 分 位 数 的 极 差 (interquartile range), 命令 为 

> IQR(mpg). 

计算 样本 常用 的 分 位 数 : 极 小 、 极 大 、 中 位 数 及 两 个 四 分 位 数 , 命令 为 
> quantile (mpg) 

或 者 


> fivenum (mpg) 


计算 由 向 量 prob 给 定 的 各 概率 处 的 样本 分 位 数 , 命令 为 




















> quantile(mpg, probs) 


例如 probs = c(0.1, 0.5, 99.5)/100. 可 见 , quantile( ) 比 fivenum( ) 更 
为 一 般 . 

计算 常用 的 描述 性 统计 量 , 它们 分 别 是 最 小 值 (Min.)、 第 一 四 分 位 数 (1st 
Qu.)、 中 位 数 (Median)、 平 均值 (Mean)、 第 三 分 位 数 (3rd Qu.) 和 最 大 
值 (Max.), 命令 为 

> summary (mpg). 


计算 标准 差 , 命令 为 
> sd(mpg). 






















































































计算 中 位 绝对 离 差 (median absolute deviation), 命令 为 
> mad (mpg). 


寻找 二 元 关系 

















画 二 维 散 点 图 例如 cyl 与 mpg 的 散 点 图 (可 通过 下 面 的 命令 得 到 . 
> plot(cyl, ye 
注意 : 相仿 命令 
plot (hp ,mpg) 
可 得 到 hp 与 mpg 的 散 点 图 . 但 32 个 点 对 应 了 不 同 的 汽缸 , 因此 按 cly 为 图 
例 作出 散 点 图 更 清晰 , 命令 为 















































> plot (hp ,mpg,pch=cy1) 
> legend(250,30,pch=c(4,6,8), 
> legend=c("4 cylinders","6 cylinders","8 cylinders")) 
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。 拟 合 线性 回归 , 例如 命令 
> z <- lm(cyl ~ mpg) 
可 以 得 到 











Call: 
lm(formula = cyl ~ mpg) 


Coefficients: 
(Intercept) mpg 
11.2607 -0.2525 
线性 回归 的 截 距 为 11.2607, 斜率 为 -0.2525. 











相关 系数 (或 忆 ) 考 查 回 归 拟 合 好 坏 的 程度 . 命令 

> cor(cy1,mpg) 

可 以 得 到 相关 系数 (Pearson correlation coefficient)R, 其 平方 

> Cor(cy1 ,mpg) “2 

得 到 RR? 为 0.72618, 表明 数据 变化 的 72.6 史 可 以 用 汽缸 数 (cy1) 与 每 加 仑 的 
英里 数 (mpg) 来 刻 划 . 








五 




















残 兰 分 析 : 


> lm.res <- lm(cyl ~ mpg) # 将 回归 分 析 的 结果 作为 对 象 
# 保存 到 lm.res 中 























> lm.resids <- resid(lm.res) # 提取 残 差 向 量 

> plot (lm.resids) # 考查 残 差 的 散 点 图 

> hist(lm.resids) # 考查 残 差 的 直方 图 : 钟 型 ? 
> qqnorm(lm.resids) # 残 差 的 QQ 图 是 否 落 在 直线 上 ? 


结论 : 从 残 差分 析 我 们 可 以 得 出 汽车 的 汽缸 数 与 每 加 仑 的 里 程 数 可 以 用 线性 回 
归来 刻 划 . 

















结束 分 析 并 退出 R 


> detach (mtcars) # 从 内 存 中 清除 数据 集 mtcars 
>q() # 退出 R 





2.4 R 的 数据 结构 . 19. 





82.4 ”RR 的 数据 结构 


2.4.1 ”RR 的 对 象 与 属性 




















我 们 已 经 知道 R 通 过 一 些 对 象 来 运行 , 这些 对 象 是 用 它们 的 名 称 和 内 容 来 
刻画 的 ， 其 次 也 通过 对 象 的 数据 类 型 即 属性 来 刻画 . 所 有 的 对 象 都 有 两 个 内 在 
属性 : 类 型 和 长 度 . 类 型 是 对 象 元 素 的 基本 种 类 ,共有 四 种 : 



























































。 数值 型 , 包括 
一 整 型 
一 单 精度 实 型 
一 双 精度 实 型 





。 字 符 型 
。 复 数 型 


。 逻辑 型 (FALSE、TRUE 或 NA) 








虽然 还 存在 其 它 的 类 型 ,例如 函数 或 表达 式 , 但 是 它们 并 不 能 用 来 表示 数 
据 ; 长 度 是 对 象 中 元 素 的 数目 . 对 象 的 类 型 和 长 度 可 以 分 别 通 过 函数 mode( ) 
和 1length( ) 得 到 . 例如 




















>x<-1 

> mode (x) 

[1] "numeric" 

> length(x) 

[1] 1 

> A <- "Gomphotherium"; compar <- TRUE; z <- 1i 
> mode(A) ; mode(compar); mode(z) 

[1] "character" 

[1] "logical" 

[1] "complex" 





























无 论 什么 类 型 的 数据 , 缺失 数据 总 是 用 NA(Not Available 的 意思 ) 来 表示 ; 对 入 
大 的 数值 则 可 用 指数 形式 表示 : 
! 本 书 不 讨论 复数 型 
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> N <- 2.1e23 
> N 
[1] 2.1e+23 





























R 可 以 正确 地 表示 无 穷 的 数值 ， 如 用 Inf 和 -Inf 表 示 二 oo 和 oo, 或 者 用 NaN(Not 
a Number 的 意思 ) 表 示 不 是 数字 的 值 . 























> x <- 5/0 

>x 

[1] Inf 

> exp(x) 

[1] Inf 

> exp(-x) 

[1] 0 

> Inf - Inf 

[1] NaN 

> 0/0 

[1] NaN 

>sqrt{-7) 

[1] NaN 

Warning message: 
产生 了 NaNs in: sqrt(-17) 
>sqrt(-17+0i) ”# 按照 复数 进行 运算 
[1] 0+4.123106i 








字符 型 的 值 输入 时 须 加 上 双 引 号 "， 如 果 需 要 引用 双 引 号 的 话 ,， 可 以 让 它 
跟 在 反 斜 杜 “\” 后 面 , 在 某 些 函数 如 cat ( ) 的 输出 显示 或 write.table( ) 写 
入 磁盘 时 会 被 以 特殊 的 方式 处 理 . 例如 
































> x <- "Double quotes \" delimitate R's strings." 
>x 

[1] "Double quotes \" delimitate R's strings." 

> cat(x) 


Double quotes " delimitate R's strings. 











男 一 种 表示 字符 型 变量 的 方法 ， 即 用 单 引 号 (?) 来 界定 变量 , 这 种 情况 下 不 需 
要 用 反 斜 杠 来 引用 双 引 号 . 














2.4 有 的 数据 结构 . 21 . 
> x <- 'Double quotes " delimitate R\'s Strings.' 
>x 
[1] "Double quotes \" delimitate R's strings." 
表 2.1 概 括 了 表示 数据 对 象 的 类 别 : 
表 2.1 数据 对 象 及 类 型 
是 否 允 许 
对 象 类 型 同一 个 对 象 中 
有 多 种 类 型 ? 
向 量 数值 型 ,字符 型 ,复数 型 , 逻辑 型 否 
因子 数值 型 , 字符 型 否 
数组 数值 型, 字符 型 复数 型 ， 逻辑 型 否 
和 窃 阵 数值 型 , 字符 型 , 复数 型 ,逻辑 型 否 
数据 杠 数值 型 ,字符 型 ， 复数 型 ， 尿 各 型 是 
时 间 序 列 (ts) 数值 型 ， 字符 型 ， 复数 型 ， 逻辑 型 合 
列表 数值 型 ,字符 型 ， 复数 型 ， 逻 得 型 ， 是 
函数 ,表达 式 ， 
说 明 
1) 向 量 是 一 个 变量 (的 取 值 ),， 是 及 中 最 常用 、 最 基本 的 操作 对 象 ;, 因子 是 一 
个 分 类 变量 ; 数组 是 一 个 k 维 的 数据 表 ; 和 矩阵 是 数组 的 一 个 特例 ， 其 维 
数 k = 2. 


St 

































































注意 : 数组 或 者 和 


上 E 阵 





一 个 或 几 个 向 量 和 (或 ) 因 



























































的 所 有 元 素 都 必须 是 同一 种 类 型 的 ; 数据 框 是 由 
子 构成 , 它们 必须 是 等 长 的 , 但 可 以 是 不 同 的 


数据 类 型 ;“ts” 表 示 时 间 序 列 数据 ， 它 包含 一 些 额 外 的 属性 , 例如 频率 








和 时 间 ; 列表 可 以 包含 任 


对 于 一 个 向 量 , 用 它 





一 些 额 外 信息 , 这 些 信息 











器 


类 型 的 对 象 , 包括 列表 
的 类 型 和 长 度 足 够 描述 数据 ; 而 
































其 它 的 对 象 则 男 需 
外 在 的 属性 给 出 , 例如 这 些 属性 中 的 表示 对 和 象 
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维 数 的 dim. 比如 一 个 2 行 2 列 的 的 和 矩阵, 它 的 aim 是 一 对 数值 [2,2]， 但 是 其 
长 度 是 4. 


3) 及 中 有 三 种 主要 类 型 的 运算 符 , 表 2.2 是 这 些 运算 符 的 列表 . 其 中 数学 运算 
符 和 比较 运算 符 作 用 于 两 个 元 素 上 (例如 x + y, a < b); 数学 运算 符 不 只 
是 作用 于 数值 型 或 复数 型 变量 , 也 可 以 作用 在 逻辑 型 变量 上 ; 在 后 一 种 
情况 中 , 逻辑 型 变量 被 强制 转换 为 数值 型 ， 比较 运算 符 可 以 适用 于 任何 

类 型 : 结果 是 返回 一 个 或 儿 个 逻辑 型 变量 ; 逻辑 型 运算 符 适 用 于 一 个 (对 

于 “!1” 运 算 符 ) 或 两 个 逻辑 型 对 象 ( 对 于 其 它 运算 符 ), 并 且 返 回 一 个 (或 

几 个 ) 逻辑 性 变量 .运算 符 “ 迪 辑 与 ”和 “ 迪 辑 或 ”存在 两 种 形式 :“&” 

和 “|” 作 用 在 对 和 象 中 的 每 一 个 元 素 上 并 且 返 回 和 比较 次 数 相等 长 度 的 好 

辑 值 ;“&z&” 和 “||” 只 作用 在 对 象 的 第 一 个 元 素 上 . 











































































































































































































表 2.2 运算 符 











数学 运算 比较 运算 逻辑 运算 

+ 加 法 < 小 于 ! x 逻辑 非 
S 减法 > 大 于 x&y 逻辑 与 
* 乘法 <= ”小 于 或 等 于 x &&y 同上 

/ 除法 >= 大 于 或 等 于 x|y 逻辑 或 
乘 方 ”== 等 于 x || y 同上 
%% 模 != ”不 等 于 xor(x，y) ”了 弄 或 





X%/% ”整除 


2.4.2 ”浏览 对 象 的 信息 





函数 1s( ) 的 功能 是 显示 所 有 在 内 存 中 的 对 象 . 1s( ) 只 会 列 出 对 象 名 , 例 
如 : 











> name <- "Carmen"; nl <- 10; n2 <- 100; m <- 0.5 
> ls() 


[1] nm" ini" nn2" name" 


2.4 R 的 数据 结构 


.23. 








如 果 只 要 显示 出 在 名 称 中 带 有 某 个 指定 字符 的 对 象 ， 则 通过 设 定 选项 pattern 








来 实现 (可 简写 为 pat) ): 


> ls(pat = "m") 


[1] Tm" "name i 

















如 有 果 进 一 步 限定 显示 名 称 中 以 某 个 字母 开头 的 对 象 ， 则 可 使 月 








> ls(pat = "~m") 
[1] Tm" 








运行 函数 1s .str( ) 将 会 显示 内 存 中 所 有 对 象 的 详细 信息 : 





> ls.str( ) 


m: nmo0o.5nl : num 10n2 : num 100 name : 


在 ls.str( ) 函 数 中 另 一 个 非常 有 用 的 选项 是 max.level, 它 将 
有 关 对 象 信息 的 详细 级 别 . 缺 省 情况 下 ，1ls.str( ) 将 会 列 出 关于 对 象 的 所 有 

















"Carmen" 














Ht 











信息 , 包括 数据 框 、 和 矩阵 ， 或 数据 列表 的 详细 信息 , 显示 结果 可 能 会 很 长 . 














果 设 定 max.level =-1 就 可 以 避免 这 种 情况 了 . 试 比较 : 


> M <- data.frame(n1, n2, m) 
> ls.str(pat = "M") 


M : ‘data.frame': 1 obs. of 3 variables: 


$ ni: num 10 
$ n2: num 100 
$m: num 0.5 


> ls.str(pat="M", max.level=-1) 


M : ‘data.frame': 1 obs. of 3 variables: 


要 在 内 存 中 删除 某 个 对 象 , 可 利用 函数 rm( ). 例如 





。 运行 rm(x) 将 会 删除 对 象 x 
。 运行 rm(x,y) 将 会 删除 对 象 x 和 y 


。 运行 rm(list=]s( )) 则 会 删除 内 存 中 的 所 有 对 象 


~ 
































。 运行 rm(list=ls (pat="“m")) 则 会 删除 对 象 中 以 字母 m 开 头 的 对 象 








且 如 
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下 面 我 们 通过 具体 的 例子 说 明 向 量 (包括 数值 型 向 量 、 字 符 型 向 量 、 罗 辑 
型 向 量 和 因子 型 向 量 )、 矩阵 、 数据 框 、 列 表 和 时 间 序 列 的 构成 方法 . 
































2.4.3 ”向 量 的 建立 



















































































数值 型 向 量 的 建立 
统计 分 析 中 最 为 常用 的 是 数值 型 的 向 量 , 它们 可 用 下 面 的 四 种 函数 建立 : 
1) seq( ) 或 “:” # 若 向 量 ( 序 列 ) 具 有 较为 简单 的 规律 
2) rep( ) # 若 向 量 ( 序 列 ) 具有 较为 复杂 的 规律 
本 # 车 向 量 (序列 ) 没 有 什么 规律 
4) scan( ) # 通过 键盘 逐个 输入 
例子 
> 1:10 
[1] 1 2 3 4 5 6 7 8 910 
> 1:10-1 
[1] 0123456789 
> 1:(10-1) 
[1] 123456789 # 注意 括号 有 无 的 区 别 
> z <- seq(1,5,by=0.5) # 等 价 于 seq(from=1 ,to=5,by=0.5) 
>z 


[1] 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 

> z <- seq(1,10,length=11) # 等 价 于 seq(1,10,1length.out=11) 
>z 

[1] 1.0 1.9 2.8 3.7 4.6 5.5 6.4 7.3 8.2 9.1 10.0 
> z <- rep(2:5,2) # 等 价 于 rep(2:5，times=2) 

> 世 

[1] 23452345 

> z <- rep(2:5,rep(2,4)) 

[1] 22334455 

> Z<- rep(1:3, times = 4, each = 2) 














>Zz 
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[1] 112233112233112233112233 
> Z <- x<-c(42,7,64,9) 





>z 

[1] 42 7 64 9 

>z <- scan( ) # 通过 键盘 建立 向 量 
1: 4120 1.5 2.0.2.5 3.0 3.5 4.0 4.5 5.0 

10: 


Read 9 items 

>Zz 

[1] 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 

> z <- sequence(3:5) 

>Zz 

[1] 123123412345 

> z <- sequence(c(10,5)) 

>Zz 

[1] 1 2 3 4 5 6 7 8 910 1 2 3 4 5 




















字符 和 字符 向 量 在 R 中 广泛 使 用 ， 比如 图 表 的 标签 . 在 显示 的 时 候 ， 相 应 
的 字符 串 由 双 引 号 界定 , 字符 串 在 输入 时 可 以 使 用 单 引号 () 或 双 以 号 (”). 引 
号 ( 门 在 输入 时 应 当 写作 \”. 字符 向 量 可 以 通过 函数 c( ) 连接 . 函数 paste() 可 
以 接受 任意 个 参数 ， 并 从 它们 中 逐个 取出 字符 并 连 成 字符 串 ， 形成 的 字符 串 的 
个 数 与 参数 中 最 长 字符 串 的 长 度 相 同 . 如 果 参 数 中 包含 数字 的 话 ， 数字 将 被 强 
制 转化 为 字符 串 . 在 默认 情况 下 , 参数 中 的 各 字符 串 是 被 一 个 空格 分 隔 的 , 不 
过 通过 参数 sep=string 用 户 可 以 把 它 更 改 为 其 他 字符 串 , 包括 空 字符 串 . 例 
如 
































































































































> Z <- c("green",'"blue sky","-99") 


> Z 

[1] "green" "blue sky" "-99" 

> labs <- paste(c("X","Y"), 1:10, sep="") 
> labs 


[1] x1" UD BM 3 i nxXx5" "Y6" ux nye8" "Xx9" nyY10" 
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逻辑 型 向 量 的 建立 


















































与 数值 型 向 量 相同 ,及 .允许 对 逻辑 向 量 进行 操作 . 一 个 逻辑 向 量 的 值 可 以 
是 TRUE, FALSE 和 NA. 前 两 个 通常 简写 为 T 和 F2 . 逻辑 向 量 是 由 条 件 给 出 的 . 壁 
如 














> x <- .c(10.4, 5.6, 3;1, 6.4,; 21.7) 
> temp <- x > 13 

> temp 

[1] FALSE FALSE FALSE FALSE TRUE 








temp 为 一 个 与 x 长 度 相同 , 元 素 根 据 是 否 与 条 件 相 符 而 由 TRUE 或 FALSE 组 成 的 
向 量 . 逻辑 向 量 可 以 在 普通 的 运算 中 被 使 用 ， 此 时 它们 将 被 转化 为 数字 向 
j 单 的 例子 : 

































































类 
局 男 
ee 
忆 
tn 
[wa 
I 
舍 
一 
于 
器 
己 
[wa 
I 
对 
Le 
昌 
让 
己 
3 
或 











> !(7==6)== 
[1] TRUE 

> (7==9) | (7>0) 
[1] TRUE 

> (7==9)&(7>0) 
[1] FALSE 


因子 型 向 量 的 建立 























个 因子 或 因子 向 量 不仅 包 括 分 类 变量 本 身 , 还 包括 变量 不 同 的 可 能 水 






































平 (即使 它们 在 数据 中 不 出 现 ). 因子 利用 函数 factor( ) 创 建 . factor( ) 的 调 
用 格式 如 下 : 














factor( ) 的 调用 格式 


factor(x, levels = sort(unique(x), na.last = TRUE) ， 










labels = levels, exclude = NA, ordered = is.ordered(x)) 









2 注意 T 和 F 仅 仅 是 默认 被 指向 TRUE 和 FALSE 的 变量 ， 而 不 是 系统 的 保留 字 


2.4 及 的 数据 结构 OR 























说 明 : levels 用 来 指定 因子 的 水 平 ( 缺 省 值 是 向 量 x 中 不 同 的 值 ); labels 用 来 
指定 水 平 的 名 字 ; exclude 表 示 从 向 量 x 中 剔除 的 水 平 值 ;, ordered 是 一 个 逻辑 
型 选项 , 用 来 指定 因子 的 水 平 是 否 有 次 序 . 这 里 x 可 以 是 数值 型 或 字符 型 , 这 样 
对 应 的 因子 也 就 称 为 数值 型 因子 或 字符 型 因子 . 因此 , 因子 的 建立 可 以 通过 字 
符 型 向 量 或 数值 型 向 量 来 建立 , 且 可 以 转化 . 










































































































































































1) 将 字符 型 向 量 转换 成 因子 





> a<- c("green", "blue", "green", "yellow") 
> a <- factor(a) 

a 

[1] green blue green yellow 


Levels: blue green yellow 





2) 将 数值 型 向 量 转 换 成 因子 


>b <- c(1,2,3,1) 
> b <- factor(b) 
> b 

[1] 1231 
Levels: 1 2 3 








3) 将 字符 型 因子 转换 为 数值 型 因子 


> a<- c("green", "blue", "green", "yellow") 

> a <- factor(a) 

> levels(a)<-c(1,2,3,4) 

> a 

[1] 2123 

Levels: 1 234 

> ff <- factor(c("A", "B", "C"), labels=c(1,2,3)) 
> ff 

[1] 1 2 3 

Levels: 1 2 3 


4) 将 数值 型 因子 转换 为 字符 型 因子 











一 
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> b <- c(1,2,3,1) 
> b <- factor(b) 
> levels(b) <- c("low", "middle", "high") 
> b 


[1] low middle high low 

Levels: low middle high 

> ff <- factor(1:3, labels=c("A", "B", "C")) 
ff 

[1] ABC 

Levels: ABC 











注 : 函数 levels( ) 用 来 提取 一 个 因子 








可 能 的 水 平 值 , 例如 


> ff <- factor(c(2, 4), levels=2:5) 
> ff 

[1] 2 4 

Levels: 2345 

> levels (ff) 

[1] "2" "3" "4" "5" 























函数 g1( ) 能 产生 规则 的 因子 序列 . 这 个 函数 的 用 法 是 gl (k,n)， 其 中 k 是 
水 平 数 , a 是 每 个 水 平 重复 的 次 数 . 此 函数 有 两 个 选项 : length 用 来 指定 
产生 数据 的 个 数 , label 用 来 指定 每 个 水 平 因 子 的 名 字 . 例如 : 
































> gl1(3, 5) 

[i 1111112222233333 

Levels: 123 

> gl(3, 5, length=30) 

[1] 工 寺 二 二 22222333331414141442222233333 
Levels: 123 

> gl1(2, 6, label=c("Male", "Female")) 

[1] Male Male Male Male Male Male 
[7] Female Female Female Female Female Female 
Levels: Male Female 

> g1(2, 10) 

[1] 11111111112222222222 


2.4 R 的 数据 结构 
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Levels: 12 

> gl1(2, 1, length=20) 

[1] 12121212121212121212 
Levels: 12 

> gl1(2, 2, length=20) 

[1] 11221122112211221122 
Levels: 12 


数值 型 向 量 的 运算 


同一 


式 的 结果 是 一 个 与 表达 式 中 最 长 向 量 有 HS 度 的 向 量 , 表达 式 中 较 短 的 
会 根据 它 的 长 度 被 重复 使 用 若干 次 (不 一 定 是 整数 次 ),， 直到 与 长 度 最 长 的 














向量 可 以 用 于 算术 表达 式 中 ,操作 是 按照 向 量 中 的 元 素 

















个 一 个 进行 的 . 


个 表达 式 中 的 向 量 并 不 需要 具有 相同 的 长 度 , 如 果 它 们 的 长 度 不 同 ,表达 




































































向 量 


里 
































向 量 


里 


抽 E 了 机 不 重复 一 这 一 规则 六 法 Geeyding ru 人 
如 , 命令 


>xX 
> 了 
> 了 


产生 一 个 长 度 为 11 的 新 向 量 w 其 中 2 x z 被 重复 2.27 
复 11 次 . 为 了 方便 使 用 , 我 们 对 向 量 的 运算 稍 作 旨 


<- c(10.4, 5.6, 3.1, 6.4, 21.7) 
<— c(x,0,xX) 
<- 2+X + y+1 














> 





























y 被 重复 1 次 , 常数 1 被 重 





星 


向 量 与 一 个 常数 的 加 、 减 、 乘 、 除 为 向 量 的 每 一 个 元 素 与 此 常数 进行 加 、 








向 量 的 乘 方 ( ) 与 开 方 (sqrt) 为 每 一 个 元 素 的 乘 方 与 开 方 , 这 对 




















像 log, exp, sin, cos, tan 等 普通 的 运算 函数 同样 适用 ; 























同样 长 度 向 量 的 加 、 减 、 乘 、 除 等 运算 为 对 应 元 素 进行 加 、 减 、 乘 、 除 等 ; 





e 不 同 长 度 向 量 的 加 、 减 、 乘 、 除 遵从 循环 法 则 (recycling rule), 但 要 





























这 种 场合 通常 要 求 向 量 的 长 度 为 倍数 关系 , 否则 会 出 现 警告 : i 











非 是 短 向 量 的 整数 倍 ”. 


下 面 举例 说 明 





= 
里 
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> 5+c(4,7,17) 


[1] 9 12 22 
> 5*c(4,7,17) 
[1] 20 35 85 
> c(-1,3,-17)+c(4,7,17) 
[1] 310 0 
> c(2,4,5)°2 
[1] 4 16 25 


> sqrt(c(2,4,25)) 

[1] 1.414214 2.000000 5.000000 
> 1:2+1:4 

[1] 2446 

> 1:4+1:7 

[1] 2 4 6 8 6 810 


Warning message: 


长 的 目标 对 象 长 度 不 是 短 的 目标 对 象 长 度 的 整 倍数 in: 1:4 + 1:7 














最 后 列 出 统计 分 析 中 常用 的 函数 与 作用 ( 见 表 2.1). 





图 2.1 统计 分 析 中 常用 的 函数 与 作用 






































































































































统计 函数 作用 

max(x) 返回 向 量 z 中 最 大 的 元 素 
min(z) 返回 向 量 z 中 最 小 的 元 素 
which .max(Z) 返回 向 量 z 中 最 大 元 素 的 下 标 
which .min(Zz) 返回 向 量 z 中 最 小 元 素 的 下 标 
mean(7) 计算 样本 (向 量 )x 的 均值 
median(7) 计算 样本 (向 量 )z 的 中 位 数 
mad(x) 计算 中 位 绝对 离 差 








2.4 及 的 数据 结构 
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var(x) 
sd(Z) 
range(7) 
IQR(Z) 
quantile(Z) 


Summary(2Z) 


length(7) 
sum(z) 
prod(7z) 
rev(x) 


Sort(Z) 


order(Z) 


rank(Z) 


cumsum(2Z) 


cumprod(7) 


cummin(2Z) 


cummax(2Z) 





计算 样本 (向 量 )z 的 方差 
计算 向 量 z 的 标准 差 
返回 长 度 为 2 的 向 量 : c(min(x), max(x)) 
计算 样本 的 四 分 位 数 极 差 

计算 样本 常用 的 分 位 数 3 


计算 常用 的 描述 性 统计 量 (最 小 、 最 大 、 平 均值 、 中 
位 数 和 四 分 位 数 ) 


返回 向 量 z 的 长 度 
给 出 向 量 z 的 总 和 
给 出 向 量 z 的 乘积 
取向 量 z 的 逆序 


将 向 量 z 按 升序 排序 , 选项 decreasing=TRUE 表 未 


返回 x 的 秩 (升序 ), 选项 decreasing=TRUE 得 到 降 
序 的 秩 


返回 z 的 秩 

返 回 向 量 z 和 累积 和 (其 第 个 元 素 是 
从 xz[1] 到 z[ 引 的 和 ) 

返 回 向 量 x 和 累 积 积 (其 第 i 个 
从 z[1]| 到 z 思 的 积 ) 

返回 向 量 x 和 累积 最 小 值 (其 第 个 元 素 是 
从 xz[1] 到 zi| 的 最 小 值 ) 
返回 向 量 x 和 累积 最 大 值 (其 第 个 元 素 是 
从 z[1] 到 z 思 的 最 大 值 ) 




















[lm 






















































































素 是 


局 1 










































































3quantile(x) 仅 计算 z 的 极 小 、 
给 定向 量 probs 处 的 样本 分 位 数 . 

















极 大 、 中 位 数 及 两 个 四 分 位 数 , 更 一 般 地 使 用 quantile (x，probs) 可 计算 
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a 计算 样本 (向 量 )z 与 y 的 协 方差 
ced 计算 样本 (向 量 )z 与 y 的 协 方差 
co 计算 样本 (向 量 )z 与 y 的 相关 系数 
we 计算 样本 (向 量 )z 与 y 的 外 积 4 





函 数 max()，min()，median( ), var( ), sd( ), sum( )，cumsum( )， 
cumprod( ), cummax( ), cummin( ) 对 于 算 阵 及 数据 框 的 意义 有 方向 性 . 对 于 
和 矩阵, cov( ) 和 cor( ) 分 别 用 于 求 矩 阵 的 协 方差 阵 和 相关 系数 阵 , 这 些 将 在 
后 面 举例 说 明 . 




















向 量 的 下 标 (index) 与 子 集 (元 素 ) 的 提取 














选择 一 个 向 量 的 子 集 ( 元 素 ) 可 以 通过 在 其 名 称 后 追加 一 个 方 括号 中 的 索 
引 向 量 来 完成 . 更 一 般 地 , 任何 结果 为 一 个 向 量 的 表达 式 都 可 以 通过 追加 索引 
向 量 来 选择 其 中 的 子 集 . 这 样 的 索引 向 量 有 四 种 不 同 的 类 型 ， 





















































1) 正 整 数 向 量 一 提取 向 量 中 对 应 的 元 素 . 这 种 情况 下 索引 向 量 中 的 值 必 
须 在 集合 {1, 2,… ,Length(z)} 中 . 返回 的 向 量 与 索引 向 量 由 相同 的 长 度 ， 
且 按 索引 向 量 的 顺序 排列 . 例如 x[6] 是 x 的 第 六 个 元 素 , 而 
> x[1:10] 选取 了 zx 的 前 10 个 元 素 ( 假 设 x 的 长 度 不 小 于 10). 
> x[Lc(1,4)] 
取出 向 量 z 的 第 1 和 第 4 个 元 素 . 













































































负 整 数 向 量 一 去 掉 向 量 中 与 索引 向 量 对 应 的 元 素 . 例如 
> y <- x[-(1:5)] 
从 z 中 去 除 前 5 个 元 素 得 到 y. 


MP 
Si 




















字符 串 的 向 量 . 这 种 可 能 性 只 存在 于 拥有 names 属 性 并 由 它 来 区 分 向量 
元 素 的 向 量 . 这 种 情况 下 一 个 由 名 称 组 成 的 子 向 量 起 到 了 和 正 整 数 的 索 
引 向 量 相 同 的 效果 . 例如 

4 函数 outer( ) 的 一 般 形 式 为 (x,y,"op"), 其 中 op 可 为 任 一 四 则 运算 符 . 





CD 
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> fruit <- c(5, 10, 1, 20) 
> names(fruit) <- c("orange", "banana", "apple", "peach") 
fruit 
orange banana apple peach 
5 10 1 20 
> lunch <- fruit[c("apple","orange")] 
> lunch 
apple orange 
1 5 























4) 逻辑 的 向 量 一 取出 满足 条 件 的 元 素 . 在 索引 向 量 中 返回 值 是 TRUE 的 元 
素 所 对 应 的 元 素 将 被 选 出 ,返回 值 为 FALSE 的 值 所 对 应 的 元 素 将 被 忽略 . 
例如 




















> x <- c(42,7,64,9) 





> x>10 # 值 大 于 10 的 元 素 座 辑 值 
[1] TRUE FALSE TRUE FALSE 

> x[x>10] # 值 大 于 10 的 元 素 

[1] 42 64 


> x[x<40&x>10] 
numeric(0) 

> x[x>10] <- 10 
>x 

[1] 10 7 10 9 














>y = runif (100,min=0,max=1) #(0,1) 上 100 个 均匀 分 布 随机 数 
>sum(y<0.5) # 值 小 于 0.5 的 元 素 的 个 数 

[1] 47 

>sum(y[y<0.5]) # 值 小 于 0.5 的 元 素 的 值 的 和 
[1] 10.84767 

> y <- x[!is.nal(x)] # x 中 的 非 缺 失 值 


> z <- x[(!is.na(x))&(x>0)] # x 中 的 非 负 非 缺失 值 
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2.4.4 ”数组 与 矩阵 的 建立 








前 面 已 经 指出 数组 是 一 个 KE(> 1) 维 的 数据 表 ; 矩阵 是 数组 的 一 个 特例 , 其 





维 数 k& = 2, 而 上 面 所 述 的 





数组 或 者 矩阵 中 的 所 有 元 素 都 必须 是 同一 种 类 型 的 . 对 于 一 个 向 
其 类 型 和 长 度 构 成 ; 而 对 于 数组 与 矩阵 , 除了 类 型 和 长 度 两 个 属 








维 数 dim 这 个 属性 来 描述 . 




























































































问 量 自然 也 可 看 成 维 数 为 K = 1 的 数组 5. 而 且 向 量 、 
量 ， 其 属性 ! 
性 外 , 还 需要 
因此 如 果 一 个 向 量 需 要 在 及 中 以 数组 的 方式 被 处 理 ， 

















则 必须 含有 一 个 维 数 向 量 人 











FE 为 它 的 dim 属 性 








数组 的 建立 


R 中 数组 由 函数 array( ) 建 立 , 其 一 般 格 式 为 : 


> array(data, dim, dimnames) 






































中 data 为 一 问 量 ， 

















元 素 用 于 构建 数组 ; aim 为 数组 的 维 数 向 量 (为 数值 型 向 























地 并 























); dimnames 为 由 各 维 的 名 称 构 成 的 向 量 (为 字符 型 向 量 ), 缺 省 为 空 











以 一 个 3 维 的 数据 为 例 























I 来 说 明 . 设 4 是 一 个 存放 在 癌 量 a 中 的 24 个 数据 项 组 





成 的 数组 , 4A 的 维 数 向 量 为 c(3,4,2). 维 数 可 由 命令 


> dim(A) <- c(3,4,2) 
建立 . 这 样 , 命令 


> A <- array(a, dim = 


c(3,4,2)) 





就 建立 了 数组 4，24 个 数据 项 在 数组 4 中 的 顺序 依次 为 : a[1,1,1], al2,1,1]， 
…, a[2, 4, 2], a[3,4, 2]. 我 们 再 来 看 一 个 具体 的 例子 : 


> A <- array(1:8，dim 
> 人 
到 这 
[,1] [,2] 
[1,] 1 3 
[2,] 2 4 


二 

[,1] [,2] 
[1,] 5 7 
[2,] 6 8 








= c(2, 2,，2)) 























5 通常 使 用 c( ) 建 立 向 量 , 使 用 matrix( ) 建 立 和 矩阵, 使 用 array( ) 建 立 数组 , 因此 它们 在 及 中 的 属性 是 不 














同 的 
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> dim(A) 

[4] 2 人 

> dimnames (A) < 一 list(c("a", "bp"), crcns dr )s cl"e', 二 
> 人 


人 

C d 
al3 

2 4 
将 

cd 
a 5 7 
b68 
> colnames (A) 
[1] "ec" "qd" 
> rownames (A) 
[1] "a" "b" 
> dimnames (A) 
[[1]] 
[1] "a" "b" 
[[2]] 
[1] "c" "qd" 
[[3]] 
[i] er "Ff" 








如 果 数 据 项 太 少 , 则 采用 循环 准则 填充 数组 (或 矩阵 ), 见 下 面 的 的 第 二 个 例子 . 


和 矩阵 的 建立 














[Ea 





为 矩阵 是 数组 的 特例 ,因此 矩阵 也 可 以 用 函数 array( ) 来 建立 , 例如 














> A <- array(1:6，c(2,3)) 
> 人 

[s1]. [21, [3 
[1,] 1 3 5 
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[2,] 2 4 6 
> A<-array(1:4,c(2,3)) 
> 人 

[,1] [,2] [,3] 
[1,] 1 3 1 
[2,] 2 4 2 
> A<-array(1:8,c(2,3)) 
>A 

[,1] [,2] [,3] 
[1,] 1 3 5 
[2,] 2 4 6 








然而 ,由 于 和 矩阵 在 数学 及 统计 中 的 特殊 性 , 在 R 中 最 为 常用 的 是 使 用 命 
令 matrix( ) 建 立 矩 阵 , 而 对 角 和 矩阵 用 函数 diag( ) 建 立 更 为 方便 , 例如 












































> X <- matrix(1, nr = 2, nc = 2) 
[,1] [,2] 

[1,] 1 1 

[2,] 1 1 

> X <- diag(3)  # 生成 单位 阵 
[,1] [,2] [,3] 

[1,] 1 0 0 

[2,] 0 1 0 

[3,] 0 0 1 

> v <- c(10，20，30) 

> diag(v) 
[,1] [,2] [,3] 

[1,] 10 0 0 

[2,] 0 20 0 

[3,] 0 0 30 

> diag(2.5, nr = 3, nc = 5) 
[,1] [,2] [,3] [,4] [,5] 

[1,] 2.5 0.0 0.0 0 0 

[2,] 0.0 2.5 0.0 0 0 

[3,] 0.0 0.0 2.5 0 0 

> X <- matrix(1:4，2) # 等 价 于 X <- matrix(1:4，2，2) 











2.4 有 的 数据 结构 





> 又 
EE; 41 [29 

[1,] 1 3 
[2,] 2 4 
> rownames(X) <- c("a", "b'") 
> colnames(X) <- cl("c", "d") 
> 又 

C d 
al3 
b 2 4 
> dim(X) 
[1] 2 2 
> dimnames(X) 
[[1]] 
[1] "a" "b" 
[[2]] 
Et et Wa 


~ 
~ 

王 豆 : 
Ie* 




















倍数 , 否则 会 出 现 警 告 . 

















。 和 矩阵 的 维 数 使 用 c( ) 会 得 到 不 同 的 结果 (除非 是 方 阵 )， 











。 循环 准则 仍然 适用 于 matrix( ), 但 要 求 数据 项 的 个 数 等 于 矩阵 的 列 数 的 


因此 需要 小 心 . 








。 数据 项 填充 矩阵 的 方向 可 通过 参数 byrow 来 指定 , 其 缺 省 是 按 列 填充 

















的 (byrow=FALSE). byrow=TRUE 表 示 按 行 填充 数据 . 














再 看 儿 个 例子 : 














> X <- matrix(1:4，2，4) # 按 列 填充 
> X 
[,1] [,2] [,3] [,4] 
[1,] 1 3 1 3 
[2,] 2 4 2 4 
> X <- matrix(1:4，2，3) 


Warning message: 
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In matrix(1:4，2，3) : 数据 长 度 [4] 不 是 矩阵 列 数 [3] 的 整 倍数 
> X <- matrix(1:4，c(2，3))  # 不 经 常 使 用 
>X 
[,1] [,2] 
[1,] 1 3 
[2,] 2 4 
> X <- matrix(1:4，2，4，byrow=TRUE) # 按 行 填充 
>X 
[,1] [,2] [,3] [,4] 
[1,] 1 2 3 4 
[2,] 1 2 3 4 





数组 与 矩阵 的 下 标 (index) 与 子 集 ( 元 素 ) 的 提取 








同 向 量 的 下 标 一 样 , 矩阵 与 数组 的 下 标 可 以 使 用 正 整数 、 负 整数 和 好 辑 表 
达 式 ， 从 而 实现 子 集 的 提取 或 修改 . 考查 矩阵 














x <- matrix(1:6，2，3) 
> 这 

[,1] [,2] [,3] 
[3] 1 3 5 
[2,] 2 4 6 


。 提取 一 个 元 素 
> x[2,2] 
[1] 4 


。 提取 若 一 个 或 若干 个 行 或 列 。 


> x[2,] 

[1] 2 4 6 

> x[,2] 

[1] 3 4 

> x[,2,drop=FALSE] 

















5R 的 缺 省 规则 是 返回 一 个 维 数 尽 可 能 低 的 对 象 , 这 可 以 通过 修改 选项 drop 的 值 来 改变 . 


2.4 R 的 数据 结构 





[,1] 

[1,] 3 

[2,] 4 

> x[,c(2,3) ,drop=FALSE] 
[,1] [,2] 

[1,] 3 5 

E23 4 6 


。 去 掉 若 一 个 或 若干 个 行 与 列 





> x[-1,] 
[1] 246 
> 文 [,=2] 

[,1] [,2] 
[La 1 5 
[2,] 2 6 


。 添加 与 替换 元 素 

















> x[,3] <- NA 
>xX 
[,1] [,2] [,3] 
[1,] 1 3 NA 
[2,] 2 4 MA 
> x[is.na(x)] <- 1 # 缺失 值 用 1 代替 
>xX 
[,1] [,2] [,3] 
[1,] 1 3 1 
[2,] 2 4 1 


对 和 矩阵 的 运算 (函数 ) 




















对 于 矩阵 的 运算 , 我 们 分 通常 的 矩阵 代数 运算 与 统计 运算 来 


} 别 讨论 . 


全 
Deyn 


1) 矩阵 的 代数 运算 : 


。 转 置 函 数 t( ): 
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> X <- matrix(1:6，2，3) 
> 又 
[,1] [,2] [,3] 
[1,] 1 3 5 
[2,] 2 4 6 
> t(X) 
[,1] [,2] 
[1,] 1 2 
[2,] 3 4 
[3,] 5 6 











。 提 取 对 角 元 diag( ): 








> X <- matrix(1:4, 2，2) 
> diag(X) 
[1] 1 4 








。 几 个 矩阵 按 行 合并 rbinq( ) 与 按 列 














> mi <- matrix(1, nr = 2, nc 
> m2 <- matrix(2, nr = 2, nc 
> rbind(mi1, m2) 
Ls1] “Ls2] 
[1,] L 1 
[2,] 1 1 
[3,] 2 2 
[4,] 2 2 
> cbind(mi1, m2) 
[,1] [,2] [,3] [,4] 
[1,] 1 1 2 2 
[2,] 1 1 2 2 


。 和 矩阵 的 逐 元 乘积 “*”: 
> m2*m2 
[,1] [,2] 


[1,] 4 4 
[2,] 4 4 


。 和 矩阵 的 代数 乘积 “加 *%”: 











并 cbind( ) : 
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> rbind(mi, m2) %*% cbind(m1，m2) 
[,1] [,2] [,3] [,4] 

[1,] 2 2 4 4 

[2,] 2 2 4 4 

[3,] 4 4 8 8 

[4,] 4 4 8 8 

> cbind(m1i, m2) %*% rbind(mi1, m2) 
[,1] [,2] 

[1,] 10 10 

[2,] 10 10 


。 方 阵 的 行列 式 det ( ) 
> XxX<-matrix(1:4, 2) 
> 又 

[,1] [,2] 
[1,] et 3 
[2,] 2 4 
> det(X) 
[1] -2 


e。 其 它 函 数 : 交叉 乘积 (cross product), 函数 为 crossprod( ); 特征 根 


与 特征 向 量 , 函数 为 eigen( ); QR 分 解 , 孙 


2) 矩阵 的 统计 运算 : 











Var( ), sd( ), sum( ), cumsum( ), cumprod( 
) 对 于 矩阵 (及 数据 框 ) 有 方向 性 ,而 函数 cov( ) 
和 矩阵 的 协 方差 阵 和 相关 系数 阵 . 




















数 为 qr( ), 等 等 . 


在 讲述 向 量 时 我 们 已 经 提 到 过 函数 max( ), min( ), median( )， 


), cummax( ), cummin( 


和 cor( ) 分 别 用 于 计算 






































正 是 由 于 矩阵 的 排列 是 有 方向 性 的 ,在 




















的 ， 若 没有 特别 说 明 上 述 函 数 的 使 用 也 是 按 列 计算 的 , 但 也 可 以 通 
过 选项 MARGIN 来 改变 . 下 面 我 们 要 用 到 对 一 个 对 象 施 加 某 种 运算 的 函 














数 apply( ), 其 格式 为 
> apply(X, MARGIN, FUN) 

















及 中 规定 矩阵 是 按 列 排 


























其 中 X 为 参与 运算 的 矩阵 ， FUN 为 上 面 的 一 个 函数 或 “十 ”“- 








”YN (必须 放 在 引号 中 ) MARGIN=1 表 示 按 列 计算 , MARGIN=2 表 














示 按 行 计算 , MARGIN=c(1,2) 表 示 按 行列 计算 ( 帮 














FE 至 少 3 维 的 数组 中 使 用 ). 
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我 们 还 用 到 sweep( ) 函数 , 命令 
> sweep(X, MARGIN, STATS, FUN) 
表示 从 和 矩阵 X 中 按 MATGIN 计 算 STATS， 并 从 X 中 除去 (sweep out). 下 面 举 
几 个 例子 加 以 说 明 : 
。 求 均值 , 中 位 数 等 : 

> m<-matrix(rnorm(n=12) ,nrow=3) 

> apply(m，MARGIN=1，FUN=mean) # 求 各 行 的 均值 

[1] -0.2540148 0.5474583 0.1493290 


> apply (m，MARGIN=2，FUN=mean) # 求 各 列 的 均值 
[1] -0.5389053 0.4731592 0.7821656 -0.1260561 


。 标准 化 



































> scale(m, center=T, scale=T) 
e。 减 去 中 位 数 : 
> row.med <- apply(m, MARGIN=1, FUN=median) 
> sweep(m, MARGIN=1, STATS=row.med, FUN=” -”) 





2.4.5 ”数据 框 (data frame) 的 建立 














统计 分 析 中 一 个 完整 的 数据 集 通 常 是 由 若干 个 变量 的 若干 个 观测 值 组 成 
的 , 在 及 中 称 为 数据 框 . 数据 框 是 一 个 对 像 , 它 与 前 面 讲 的 矩阵 与 二 维 数 组 形式 
上 是 类 似 的 , 也 是 二 维 的 , 也 有 维 数 这 个 属性 , 且 各 个 变量 的 观测 值 有 相同 的 
长 度 . 但 不 同 的 是 : 在 数据 框 中 , 行 与 列 的 意义 是 不 同 的 , 其 中 的 列表 示 变 量 ， 
而 行 表示 观测 . 显示 数据 框 时 左 侧 会 显示 观测 值 的 序号 


数据 框 的 建立 分 为 直接 的 与 简 接 的 两 种 方法 


































































































数据 框 的 直接 建立 




















若 你 在 及 中 建立 了 一 些 向 量 并 试图 想 由 它们 生成 数据 框 ， 则 可 以 使 用 函 


数 data.frame( ). 例如 

















> x=c(42,7,64,9) 
> y=1:4 
> z.df=data.frame(INDEX = y, VALUE = x) 
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INDEX VALUE 


1 1 42 
2 2 7 
3 3 64 
4 4 9 


























数据 框 中 的 向 量 必须 有 相同 的 长 度 或 长 度 有 倍数 关系 , 如 果 其 中 有 一 个 比 其 它 
的 短 , 它 将 按 循 环 法 则 “循环 ”整数 次 . 例如 


























> weight <- c(70.6, 56.4, 80, 59.5) 
> x <- (cl("adult", "teen", "adult", "teen'")) 
> wag <- data.frame(weight, age = xXx) 
> wag 
weight age 
70.6 adult 
56.4 teen 
80.0 adult 
59.5 teen 
> x <- 1:4; y <- 2:4 


[人 


> data.frame(x, y) 
潍 误 于 data.frame(x，y) : 变 元 值 意味 着 不 同 的 行 数 4，3 








数据 框 的 简 接 建立 








一 个 数据 框 还 可 以 通过 数据 文件 (文本 文件 、 EXCEL 文 件 或 其 它 统计 
软件 的 数据 文件 ) 读 取 并 建立 , 在 此 我 们 仅 通 过 一 个 例子 来 说 明 如 何 通过 函 
数 read.table( ) 读 取 文件 c:\data\foo.txt 中 的 观测 值 , 并 建立 一 个 数据 框 . 
其 它 简 接 方法 可 参考 下 一 节 “ 数 据 的 存 贮 与 读 取 ” 的 介绍 . 已 知 存 于 foo .txt 上 
的 数据 如 下 : 




































































treat weight 


A 3.4 
B NA 
A 5.8 





则 下 面 的 命令 建立 了 数据 框 foo. 
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> foo <- read.table(file = "c:/data/foo.txt", header = T) 
> foo 


treat weight 


1 A 3.4 
2 B NA 
3 A 5.8 
适用 于 数据 框 的 函数 








在 上 一 小 节 中 我 们 所 讨论 的 关于 矩阵 的 统计 计算 函数 max( ), min( )， 
median( ), var( ), sd( ), sum( )，cumsum( ), cumprod( ), cummax( ), 
cummin( ), cov( ), cor( ) 同 样 适 用 于 数据 框 , 意义 也 相同 . 这 里 通过 R 内 
氢 的 另 一 个 数据 集 Puromycin 来 说 明 summary( )、pairs( ) 和 xtable( ) 等 的 
使 用 . 






































> attach(Puromycin) # 挂 接 数 据 集 使 之 激活 
> help(Puromycin) # 显示 前 几 行 



































> summary (Puromycin) # 显示 主要 的 描述 性 统计 量 
conc rate state 
Min. :0.0200 Min. : 47.0 treated :12 
1st Qu.:0.0600 1st Qu.: 91.5 Untreated :11 
Median :0.1100 Median :124.0 
Mean :0.3122 Mean :126.8 
3rd Qu.:0.5600 3rd Qu.:158.5 
Max. :1.1000 Max. :207.0 








从 summary 可 以 看 出 , 变量 conc 和 rate 是 数值 型 的 , 而 state 为 因子 变 
之 间 的 关系 可 以 通过 成 对 数据 散 点 图 考查 : 


并 
lL 



































> pairs(Puromycin, panel = panel.smooth) 











最 后 使 用 xtabs( ) 函数 由 交叉 分 类 因子 产生 一 个 列 联 表 











> xtabs(“state + conc, data = Puromycin) 
conc 
state 0.02 0.06 0.11 0.22 0.56 1.1 
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2.2 Puromycin 的 成 对 散 点 图 


treated 2 2 2 2 2 2 


DD 
ID 


Untreated 2 


数据 框 的 下 标 与 子 集 的 提取 





数据 框 的 下 标 与 子 集 的 提取 与 矩阵 基本 相同 . 不 同 的 是 : 对 于 列 我 们 可 以 
使 用 变量 的 名 称 , 仍 以 数据 集 Puromycin 进 行 举例 说 明 . 




















。 提取 单个 元 素 








> Puromycin[1, 1] 
[1] 0.02 
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e 提取 一 个 子 集 , 例如 第 1, 3, 5 行 ， 第 1, 3 列 








> Puromycin[c(1, 3, 5),， 


conc state 
0.02 treated 
0.06 treated 
0.11 treated 


YY a 鳄 ”到 


conc rate state 
0.02 76 treated 
0.06 97 treated 
0.11 123 treated 


OW ~ 





c(1, .3)] 


Puromycin[c(1, 3, 5), J 


常 使 用 变量 名 称 来 指定 列 的 位 置 , 上 面 的 命令 等 价 于 





> Puromycin[c(1，3，5) ， 








。 提取 一 列 (变量 的 值 ). 一 个 数据 框 的 变量 对 应 了 数 
有 名 称 , 则 可 直接 使 用 “数据 本 



































cl("conc", "state")]] 








时 框 的 一 列 , 如 果 变 














> Puromycin$conc # 等 价 于 Puromycin[ ,1] 

[1] 0.02 0.02 0.06 0.06 0.11 0.11 0.22 0.22 0.56 0.56 
[11] 1.10 1.10 0.02 0.02 0.06 0.06 0.11 0.11 0.22 0.22 
[21] 0.56 0.56 1.10 
> Puromycin$state 

[1] treated treated treated treated treated 

[6] treated treated treated treated treated 
[11] treated treated untreated untreated untreated 
[16] untreated untreated untreated untreated untreated 
[21] untreated untreated untreated 
Levels: treated untreated 

。 提取 满足 条 件 的 子 集 
> subset (Puromycin, state == "treated" & rate > 160) 


conc rate state 
9 0.56 191 treated 


三 


屋 





串 


匡 名 $ 变 量 名 ”这 种 格式 指向 对 应 的 列 . 例如 
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10 0.56 201 treated 
11 1.10 207 treated 
12 1.10 200 treated 


> subset (Puromycin, conc > mean(conc)) 


conc rate 


9 0.56 
10 0.56 
11 1.10 
12 1.10 
21 0.56 
22 0.56 
23 1.10 


191 
201 
207 
200 
144 
158 
160 


state 
treated 
treated 
treated 
treated 
untreated 
untreated 


untreated 


数据 框 中 添加 新 变量 


在 原 有 的 数据 框 
增加 变量 iconc， 



































1) 基本 方法 


> Puromycin$iconc <- 1/Puromycin$conc 





使 月 





有 with( ) 函数 


Ph 添加 新 的 变量 有 三 种 方法 .假设 我 们 想 在 Puromycin! 


其 定义 为 1/conc, 则 可 分 别 使 用 : 











> Puromycin$iconc <- with(Puromycin, 1/conc) 





> Puromycin <- transform(Puromycin, iconc = 1/conc, 


使 月 





transform( ) 函 数 , 上 





可 一 次 性 定义 多 个 变 


sqrtconc = sqrt(conc)) 


> head (Puromycin) 


Oo OD- 


conc 
.02 
.02 
.06 
.06 
.11 
.11 


CY OO 


rate 
76 
47 
97 
107 
123 
139 


state 


treated 50. 
treated 50. 
treated 16. 
treated 16. 
9.09091 
9.09091 


treated 


treated 


iconc 
00000 
00000 
66667 
66667 


sqdqrtconc 
.1414214 
.1414214 
.2449490 
.2449490 
.3316625 
.3316625 


三 





串 
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2.4.6 ”列表 (list) 的 建立 





复杂 的 数据 分 析 时 , 仅 有 向 量 与 数据 框 还 不 够 , 有 时 需要 生成 包含 不 同类 
型 的 对 象 . 及 的 列表 (list) 就 是 包含 任何 类 型 的 对 象 . 


列表 可 以 用 函数 list( ) 创 建 方法 与 创建 数据 框 类 似 ( 见 82.4.5). 
和 data.frame( ) 一 样 ,， 缺 省 值 没 有 给 出 对 象 的 名 称 ， 列 表 的 下 标 与 子 集 
的 提取 也 与 数据 框 没 有 本 质 区 别 . 数据 分 析 时 通常 是 在 提取 部 分 对 象 后 按 上 面 
讲述 的 向 量 、 和 矩阵 或 数据 框 等 运算 进行 , 在 此 不 再 一 一 列举 . 下 面 仅 举 一 例 进 
行 说 明 . 






















































































> L1 <- list(1:6, matrix(1:4, nrow = 2)) 
> Li1 

[[1]] 

[1] 123456 


[[2]] 

[,1] [,2] 
[1,] 1 3 
[2,] 2 4 


L2 <- list(x = 1:6, y = matrix(1:4, nrow = 2)) 
> L2 

$x 

[1] 123456 


$y 

[,1] [,2] 
[1,] 1 3 
[2,] 2 4 


> L2$x 

[1] 123456 
> L2[1] 

$x 

[1] 123456 
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> L2[[1]] 
[1] 123456 


> L2[L[1]] [2] 
[1] 2 

> L2$x[2] 
[1] 2 

> L2$y[4] 
[1] 4 


2.4.7 ”时 间 序 


列 (ts) 的 建立 











由 函数 ts( ) 通 过 一 向 量 或 者 矩阵 创建 一 个 一 元 的 或 多 元 的 时 间 序 


列 (time series), 它 和 








它 称 为 ts 型 对 象 ， 其 调用 格式 为 : 


函数 ts( ) 的 调用 格式 


ts(data = NA, start = 1，end = numeric(0), frequency = 1， 


deltat = 1, ts.eps = getOption("ts.eps"), class, names) 








函数 t8( ) 可 带 一 些 表明 序列 特征 的 选项 (其 本 身 可 使 用 缺 省 值 ), 它们 是 : 

















data 一 个 向 量 或 者 矩阵 


全 后 


start 朱 





构成 的 问 量 (参见 下 面 的 例子 ) 




















一 个 观察 值 的 时 间 ， 为 一 个 数字 或 者 是 一 个 由 两 个 整数 





















































后 一 个 观察 值 的 时 间 ， 指定 方法 和 start 相 同 

















单位 时 间 内 观察 值 的 频数 (频率 ) 





























个 观察 值 


a 


闻 的 时 间 间 隔 (例如 ,月 度数 据 的 取 值 为 1/12); 

















frequency 和 deltat 必 须 并 且 只 能 给 定 其 中 的 一 个 








end 最 
frequency :+ 

deltat 两 
ts.eps 序 








序列 之 间 的 误差 限 . 如 果 序 列 之 间 的 频率 差异 小 于 ts .eps， 


















































则 认为 这 些 序列 的 频率 相等 . 

class 对 象 的 类 型 . 一 元 序列 的 缺 省 值 是 "ts"， 多 元 序列 的 缺 省 值 
是 c("mts", "ts") 

names 一 个 字符 型 向 量 , 给 出 多 元 序列 中 每 个 一 元 序列 的 名 称 , 缺 
省 为 data 中 每 列 数据 的 名 称 或 者 Series 1, Series 2,... 














我 们 看 几 个 用 ts( ) 创 建 时 间 序 列 的 一 些 例子 : 
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> ts(1:10, start = 1959) 


Time Series: 

Start = 1959 

End = 1968 

Frequency = 1 

[1] 1 2 3 4 5 

> ts(1:47, frequency 
Jan Feb Mar Apr 

1959 1 2 3 

1960 12 13 14 15 

1961 24 25 26 27 

1962 36 37 38 39 

> ts(1:10, frequency 


6 7 8 910 

= 12, start = c(1959, 2)) 

May Jun Jul Aug Sep Oct Nov Dec 
4 5 6 7 8 9 10 11 
16 17 18 19 20 21 22 23 
28 29 30 31 32 33 34 35 
40 41 42 43 44 45 46 47 

= 4, start = c(1959, 2)) 


Qtri Qtr2 Qtr3 Qtr4 


1959 1 2 
1960 4 5 6 
1961 8 9 10 


> ts(matrix(rpois(36, 


3 


5),12,3), start=c(1961,1),frequency=12) 


Series 1 Series 2 Series 3 


Jan 1961 
Feb 1961 
Mar 1961 
Apr 1961 
May 1961 
Jun 1961 
Jul 1961 
Aug 1961 
Sep 1961 
Oct 1961 
Nov 1961 
Dec 1961 


Oo 


上 
oo 中 中 中 上 上 上 上 om 中 


5 4 
6 9 
3 3 
5 4 
9 3 
6 13 
2 6 
6 4 
5 7 
5 7 
5 7 
5 之 


本 书 不 讨论 时 间 序 列 的 统计 分 析 , 有 兴趣 的 可 参考 Zivot 与 Wang(2002). 


2.5 数据 的 存储 与 读 取 :下 





82.5 ”数据 的 存储 与 读 取 


对 于 在 文件 读 取 和 写 入 的 工作 , R 使 用 工作 目录 来 完成 . 如 果 一 个 文件 不 
在 工作 目录 里 则 必须 给 出 它 的 路 径 . 可 以 使 用 命令 getwd( )( 获 得 工作 目录 ) 来 
找到 目录 ,使 用 命令 setwd("C:/data") 将 当前 的 工作 目录 改变 为 cvdata( 注 

R 命 令 中 目录 的 分 割 符 使 用 正 斜 本 “/” 或 两 个 反 斜 本 “\\”), 工作 目录 的 设 
定 也 可 通过 过 “文件 ”菜单 的 “改变 当前 目录 ...” 来 完成 ”. 































































































2.5.1 ”数据 的 存储 
保存 为 文本 文件 





及 软件 中 使 用 函数 write.table( ) 或 save( ) 在 文件 中 写 入 一 个 对 象 , 一 
般 是 写 一 个 数据 框 , 也 可 以 是 其 它 类 型 的 对 象 (向 量 、 和 矩阵 、 数 组 、 列表 等 ). 我 
们 以 数据 框 为 例 加 以 说 明 , 例如 数据 框 4 是 用 下 面 的 命令 建立 的 : 


























> d <- data.frame(obs = c(1, 2, 3), treat = c("A", "B", "A"), 
weight = c(2.3, NA, 9)) 


1) 保存 为 简单 的 文本 文件 





> write.table(d, file = "c:/data/foo.txt", 


row.names = F, quote = F) 











其 中 选项 row.names = 了 表示 行 名 不 写 入 文件 , quote = F 表 示 变 量 名 不 
放 在 双 引 号 ， 


2) 保存 为 逗号 分 割 的 文本 文件 




















> write.csv(d, file = "c:/data/foo.csv'", 


row.names = F, quote = F) 


3) 保存 为 及 格式 文件 


> save(d, file = "c:/data/foo.Rdata'") 








在 经 过 了 一 段 时 间 的 分 析 后 , 常 需要 将 工作 空间 的 映像 保存 起 来 , 命令 为 


















































7 如 果 不 设 定 工作 目录 , 在 读 写 文件 时 也 可 将 目录 直接 写 在 le 参数 中 
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> SavVve.image( ) 


实际 上 它 等 价 于 





> save(list =ls(all=TRUE), file=".RData") 





我 们 了 也 可 通过 菜单 “文件 ”下 的 “保存 工作 空间 ”来 完成 . 上 述 三 个 函 
数 的 选项 及 具体 使 用 请 查看 它们 的 帮助 文件 . 












































2.5.2 ”数据 的 读 取 


文本 文件 数据 的 读 取 














及 可 以 用 下 面 的 函数 读 取 存储 在 文本 文件 (ASCID) 中 的 数据 : 
read.table( ), scan( ) 和 read.fwf( ). 




















1) 使 用 函数 read.table( ) 

函数 read.table( ) 用 来 创建 一 个 数据 框 ， 所 以 它 是 读 取 表 格 形式 的 数 
据 的 主要 方法 , 这 一 点 我 们 在 前 一 节 已 经 提 到 . 我 们 再 举 一 个 例子 , 先 
在 “c:\data” 下 建立 文件 houses.dat, 其 内 容 为 





















































Price Floor Area Rooms Age Cent .heat 
01 52.00 111.0 830 5 6.2 no 
02 54.75 128.0 710 5 7.5 no 
03 57.50 101.0 1000 5 4.2 no 
04 57.50 131.0 690 6 8.8 no 
05 59.75 93.0 900 5 1.9 yes 


则 使 用 命令 : 


> setwd("C:/data") 


> HousePrice <- read.table(file='"houses.dat") 





建立 数据 框 HousePrice. 默认 情况 下 , 数值 项 (除了 行 标号 ) 将 被 当 作 数 
值 变量 读 入 . 非 数值 变量 , 如 例子 中 的 Cent.heat, 将 被 作为 因子 读 入 . 如 
果 明 确 数据 的 第 一 行 作为 表 头 行 , 则 使 用 header 选 项 : 
































> HousePrice <- read.table('"houses.dat'", header=TRUE) 


2.5 数据 的 存储 与 读 取 .53 . 








除 上 面 的 基本 形式 外 ，read.table( ) 还 有 4 个 变形 : read.csv( )， 
read.csv2( ), read.delim( ), read.delim2( ). 前 二 个 读 取 用 逗号 
分 割 的 数据 ; 后 二 个 则 针对 使 用 其 它 分 割 符 分 割 的 数据 (它们 不 使 用 行 
号 ). 具体 可 参考 read .table( ) 的 帮助 文件 . 如 果 上 面 的 文件 在 取消 行 号 
后 每 一 个 数据 项 后 加 上 逗号 “,”, 并 改名 为 house.csv, 则 上 述 命令 改 为 
















































































> HousePrice <- read.csv('"houses.csv", header=TRUE) 





使 用 函数 scan( ) 


函数 scan( ) 比 read.table( ) 要 更 加 灵活 ， 它 们 的 区 别 之 一 是 : scan( 
) 可 以 指定 变量 的 类 型 , 例如 我 们 先 建立 文件 C:\data\data.dat: 














M 65 168 

M 70 172 

F 54 156 

F 58 163 

命令 : 

> mydata <- scan("data.dat", what = list("", 0, 0)) 











读 取 了 文件 data.dat 中 三 个 变量 , 第 一 个 是 字符 型 变量 , 后 两 个 是 数值 
型 变量 . 其 中 第 二 个 参数 是 一 个 名 义 列表 结构 ， 用 来 确定 要 读 取 的 三 个 
向 量 的 模式 . 在 名 义 列表 中 , 我 们 可 以 直接 命名 对 象 . 例如 






































> mydata <- scan("data.dat", 

+ what = list(Sex="", Weight=0, Height=0)) 
> mydata 

$Sex 

[1] "M' "MYF" nF" 


$Weight 
[1] 65 70 54 58 


$Height 
[1] 168 172 156 163 
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另 一 个 重要 的 区 别 在 于 scan( ) 可 以 用 来 创建 不 同 的 对 象 : 向 量 、 和 矩阵 、 
数据 框 、 列 表 等 . 在 缺 省 情况 下 ( 即 what 被 省 略 )，scan( ) 将 创建 一 个 数 
值 型 向 量 . 如 果 读 取 的 数据 类 型 与 缺 省 类 型 或 指定 类 型 不 符 , 则 将 返回 一 
个 错误 信息 . 更 一 般 的 说 明 可 参考 scan( ) 的 帮助 文件 . 















































3) 使 用 函数 read.fwf( ) 
函数 read.fwf( ) 可 以 用 来 读 取 文件 中 一 些 固定 宽度 格式 的 数据 ， 除 了 
选项 widths 用 来 说 明 读 取 字 有 段 的 宽度 外 ， 其 它 选项 与 read.table( ) 基 
本 相同 . 例如 , 我 们 先 建 立 文件 C:\data\data.txt: 















































也 





Al1.501 . 
Al1.551 . 
B1.601 
B1.651 . 
C1.701. 
C1.751. 


~ oO oa 小 mw N 


分 全. 
命令 : 


> mydata <- read.fwf("data.txt", widths=c(1, 4, 3),， 


col .names=c("X","Y","Z")) 


得 到 


FF 
~ OOoaO 必 wm NG 














更 详细 的 说 明 可 参考 read.fwf( ) 的 帮助 文件 . 











Excel 数 据 的 读 取 























中 


有 了 两 种 简单 的 方法 获得 Excel 电 子 表格 中 的 数据 . 














2.5 数据 的 存储 与 读 取 .55 . 





1) 利用 剪贴 板 
一 种 简单 不 过 的 方法 是 打开 Excel 中 电子 表格 , 选中 需要 的 数据 区 域 , 青 
复制 到 剪贴 板 中 (使 用 CTRL+C). 然后 在 及 中 键入 命令 






























































rt 





> mydata <- read.delim("clipboard") 








2) 使 用 程序 包 RODBC. 
要 得 到 文件 "c:\data\body .xls" 中 工作 表 1(sheet1) 中 的 数据 , 设 为 























Sex Weight Height 


M 65 168 

M 70 172 

F 54 156 

F 58 163 
可 以 使 用 命令 


> library (RODBC) 

> Zz <- odbcConnectExcel("c:/data/body .xls") 
> foo <- sqlFetch(z, "Sheet1") 
> 


close(z) 


及 中 数据 集 的 读 取 





1) R 的 标准 数据 datasets 
RR 提供 了 一 个 基本 的 数据 集 包 datasets, 其 中 包含 了 100 多 个 数据 集 ( 通 
常 为 数据 框 和 列表 ). 它 随 着 及 的 启动 全 部 一 次 性 自动 载 入 , 通过 命令 





















































> data( ) 























就 可 列 出 全 部 的 数据 集 (包括 已 经 通过 1iprary( ) 加 载 的 其 它 程序 包 的 
数据 集 ). 输入 数据 集 的 名 字 或 用 help (dataname) 就 可 看 到 你 所 关心 的 
数据 集 的 信息 

2) 专用 程序 包 中 的 数据 集 
要 读 取 其 他 已 经 安装 的 专用 程序 包 中 的 数据 ， 可 以 使 用 package 参 数 ， 例 
如 
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> data(package="pkname'") 


# pkname 为 已 安装 的 程序 包 的 名 字 





就 可 以 列 出 程序 包 pkname 中 的 所 有 数据 集 , 但 要 注意 的 是 它们 还 未 被 载 

















供 浏 览 . 而 命令 


入 到 及 系统 





> data(dataname, package="pkname'") 




















则 载 入 程序 包 pkname 中 的 名 为 dataname 的 数据 集 . 这 时 数据 dataname 的 




















信息 就 可 通过 其 名 字 或 help( ) 进 行 浏 览 . 上 

















的 数据 集 来 源 . 


:十 兰 
、 ; 
) 主 已 : 





























上 户 发 布 的 程序 包 是 一 个 丰富 





。 从 上 面 的 例子 我 们 看 到 data( ) 有 两 个 功能 : 浏览 数据 列表 和 加 载 数 
据 集 , 但 可 浏览 到 的 数据 集 并 不 一 定 已 经 加 载 ; 








但 其 中 的 数据 集 仍 未 载 入 , 仍 需要 使 用 








法 是 逐个 使 用 下 面 的 命令 


> 1ibrary("Pkname'") 


命令 library( ) 用 于 加 载 程序 包 , 程 





序 包 加 载 后 其 函数 可 以 使 用 ， 


























data( ) 加 载 . 因此 通常 的 做 





> data( ) # 或 data(package="pkname") 


> data(dataname) # data(dataname ,package="pkname'") 








data(dataname) 将 从 第 一 个 能 够 找到 data(dataname) 的 程序 包 中 


载 入 这 个 数据 集 . 为 避免 载 入 同名 的 其 它 数据 集 , 加 上 package 选 项 














是 有 必要 的 . 























在 及 刚 启 动 后 , 数据 集 mtc 
览 与 参与 计算 的 . 例如 要 计 











> mean(mtcars$mpg) 





得 到 20.09062. 另 一 个 方法 是 使 用 命令 attach (mtcars) 将 此 数据 集 


加 载 的 数据 集中 的 变量 是 不 





能 直接 按 其 名 字 参 与 运算 的 , 例如 




















ars! 





的 变量 mpg 是 无 法 直接 按 其 名 字 浏 

















} 算 其 平均 值 , 可 以 使 用 命令 




















挂 接 进来 , 成 为 当前 的 数据 集 . 这 时 及 就 将 这 个 数据 集中 的 变量 放 到 

















一 个 临时 的 目录 中 供 访问 . 这 时 与 上 面 


> attach(mtcars) 
> mean (mpg) 
[1] 20.09062 








命令 等 价 的 是 





2.6 R 的 图 形 功能 .57. 


























一 个 好 的 习惯 是 在 不 用 此 数据 集 时 将 它 挂 起 (和 凶 载 ,detach): 

















> detach(mtcars) 


及 格式 的 数据 











R 的 数据 或 更 为 一 般 的 对 象 (包括 向 量 、 数 据 框 、 列 表 、 函 数 等 ) 可 以 
通过 save( ) 保 存 起 来 , 文件 名 以 Rdata 为 后 级 . 例如 我 们 将 mtcars 中 的 变 
量 mpg 和 hp 生成 为 数据 框 mtcars2, 并 保存 在 文件 myR.Rdata 中 : 























> attach(mtcars) 
> mtcars2 <- data.frame(mtcars[,c(1,4)]) 
> save(mtcars2, "c:/data/myR.Rdata") 


而 命令 


> load("c:/data/myR.Rdata") 




















则 可 以 重新 加 载 进来 . 涉及 多 个 数据 集 的 统计 分 析 经 常 使 用 这 种 方法 保存 与 加 
载 数据 . 








其 它 统计 软件 数据 的 读 取 











R 也 可 以 读 取 其 它 统 计 软 件 的 数据 文件 (如 SAS, SPSS, Stata, S-PLUS) 和 
访问 SQL 类 型 的 数据 库 , 程序 包 foreign 提 供 了 这 一 便利 ,由 于 它们 仅 对 及 的 
高 级 应 用 有 用 , 我 们 在 此 不 再 细 说 ， 有 具体 可 参考 随机 及 同时 发 行 的 R data 
Import/Export 手 册 . 


























82.6 及 的 图 形 功 能 
































及 提供 非常 多 样 的 绘图 功能 . 我 们 可 以 通过 及 提供 的 二 组 演示 例子 进行 了 
解 : 


























e demo (graphics) 为 二 维 的 图 形 示例 ; 

















e demo (persp) 为 三 维 的 图 形 示例 . 






































. 58 . 第 二 章 及 的 基本 原理 与 核心 
我 们 在 这 里 不 可 能 详细 说 明 及 软件 在 绘图 方面 的 所 有 功能 ,主要 是 因为 每 个 绘 
图 函数 都 有 大 量 的 选项 , 使 得 图 形 的 绘制 十 分 的 灵活 多 变 . 


绘图 函数 的 工作 方式 与 本 文 前 面 描述 的 工作 方式 大 为 不 同 , 不 
数 的 结果 赋 给 一 个 对 象 *， 其 结果 ， 














是 一 个 绘图 的 窗口 或 是 一 个 文件 . 
在 了 及 中 有 两 种 绘图 函数 : 


1) 高 级 绘 





























NN 
D9 
































数 (high-level plotting functions) 创 建 一 个 新 的 图 形 


能 把 绘图 函 
各 直接 输出 到 一 个 “绘图 设备 ”上 . 绘图 





设备 


Eg 
2) 低级 绘图 函数 (low-level plotting functions) 在 现存 的 图 形 上 添加 元 素 . 








另外 绘图 参数 (graphical parameters) 提 供 了 丰富 的 绘图 选项 ,可 
























































以 使 用 缺 省 值 
















































































或 者 用 函数 par( ) 修 改 . 更 高 级 的 图 形 可 使 用 grid 和 1lattice 绘图 包 实 现 , 具 
体 可 查看 其 中 的 说 明文 档 . Paul Murrel1(2006) 系 统 地 介绍 了 及 中 作 图 方法 
和 例子 . 
2.6.1 ”绘图 函数 
表 2.3 概 括 了 及 中 的 高 级 绘图 函数 . 
图 2.3 高 级 绘图 函数 

函数 名 功能 

plot (x) 以 z 的 元 素 值 为 纵 坐 标 、 以 序号 为 横 坐 标 绘图 

plot (x, y) z( 在 z- 轴 上 ) 与 y( 在 y- 轴 上 ) 的 二 元 作 图 

sunflowerplot (x, y) 同上 , 但 是 以 相似 坐标 的 点 作为 花 条 ,其 花瓣 数目 为 点 的 个 数 

pie(x) 饼 图 

boxplot (x) 盒 形 图 (“box-and-whiskers”) 

stripchart (x) 把 z 的 值 画 在 一 条 线段 上 , 样本 量 较 小 时 可 作为 盒 形 图 的 替代 

coplot (x“y | z) 关于 z 的 每 个 数值 (或 数值 区 间 ) 绘 制 z 与 y 的 二 元 图 














有 一 些 值得 注意 的 例外 : hist( ) 和 barplot( ) 仍 然 把 生成 的 数据 结果 作为 列表 或 矩阵 . 





呀 
过 
zu 
EE 


2.6 R 的 图 











.59. 








interaction.plot (f1, f2, y) 


如 果 f1 和 £2 是 因子 , 作 y 的 
同 值 对 应 不 同 曲线 ; 可 以 
均值 , fun=mean) 



































均值 图 ， 以 f1 的 不 同 值 作为 z 轴 ， 而 f2 的 不 





选项 fun 指 定 y 的 其 





他 的 统计 量 ( 缺 省 计算 















































matplot (x,y) -元 图 ， 其 中 z 的 第 一 列 对 应 y 的 第 一 列 ,zx 的 第 二 列 对 应 y 的 第 二 列 ， 
依次 类 推 . 

dotchart (x) 如 果 z 是 数据 框 , 作 Cleveland 点 图 ( 逐 行 逐 列 累加 图 ) 

fourfoldplot (x) 四 个 四 分 之 一 圆 显 示 2times2 列 联 表情 况 (z 必 须 是 dim=c (2，2， 


























k) 的 数组 , 或 者 是 dim=c (2，2) 的 和 矩阵， 如 果 k = 1) 





assocplot (x) 


Cohen-Friendly 图 ,显示 在 二 维 列 


程度 





基 表 





P 行 、 列 变量 偏离 独立 性 的 
















































































mosaicplot (x) 列 联 表 的 对 数 线性 回归 残 差 的 马赛 克 图 

pairs(x) 如 果 z 是 矩阵 或 是 数据 框 ， 作 z 的 各 列 之 间 的 二 元 图 

plot .ts(x) 如 果 z 是 类 "ts" 的 对 象 ， 作 z 的 时 间 序 列 曲线 ，z 可 以 是 多 元 的 ,但 是 
序列 必须 有 相同 的 频率 和 时 间 

ts.plot (x) 同上 , 但 如 果 z 是 多 元 的 , 序列 可 有 不 同 的 时 间 但 须 有 相同 的 频率 

hist (x) Zz 的 频率 直方 医 

barplot (x) 2Z 的 值 的 条 形 医 

qqnorm(x) 正 态 分 位 数 一 分 位 数 图 








qqplot (x, y) 


y 对 Zz 的 分 位 数 一 分 位 数 图 





contour(x, y, 2) 




















等 高 线 图 ( 画 曲 线 时 





内 插 补 充 空 














的 值 ), z 和 y 必 须 为 向 量 , z 必 须 为 


矩阵 , 使 得 dim(z)=c (length(x)，length(y)) (zx 和 yy 可 以 省 略 ) 





filled.contour (x, y, 2) 











同上 , 等 高 线 之 间 的 区 域 是 彩色 的 , 并 且 绘 制 彩色 对 应 的 值 的 图 例 





image (x, y, 2) 

















同上 , 但 是 实际 数据 大 小 








不 同色 彩 表 示 





persp(x, y, 2) 


同上 , 但 为 透视 图 





stars(x) 








如 果 z 是 矩阵 或 者 数据 框 ， 





是 
式 





形 和 线段 画 出 




































































symbols(x, y, ...) 在 由 z 和 wy 给 定 坐 标 画 符号 ( 圆 , 正方 形 , 长 方形 , 星 , 温度 计 式 或 者 盒 
形 图 ), 符号 的 类 型 、 大 小 、 颜 色 等 由 男 外 的 变量 指定 
termplot (mod .obj) 可 归 模 型 (mod .obj) 的 ( 偏 ) 影 响 图 
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有 的 绘图 函数 的 部 分 选项 是 一 样 的 . 下 面 列 出 主要 的 共同 选项 及 其 缺 省 什 : 



























































选项 功能 

add=FALSE 如 果 是 TRUE, 车 加 图 形 到 前 一 个 图 上 (如 果 有 的 话 ) 
axes=TRUE 如 果 是 FALSE, 不 绘制 轴 与 边框 

type="p" 指定 图 形 的 类 型 ，"p": 点 ,， "1"; 线 ,"b": 点 连 线 ，"o": 同 





























上 , 但 是 线 在 点 上 ，"h": 垂直 线 ，"s": 阶梯 式 , 垂直 线 顶 端 
显示 数据 ,"S": 同上 , 但 是 在 垂直 线 底 端 显示 数据 


















































xlim=，ylim= | 指定 轴 的 上 下 限 ， 例 如 xlim=c(1，10) 或 者 xlim=range (x) 





xlab=，ylab= | 坐标 轴 的 标签 ,必须 是 字符 型 值 











main= 主 标题 ,必须 是 字符 型 值 
sub= 副标题 (用 小 字体 ) 











2.6.2 ”低级 绘图 命令 








R 的 低级 作 图 命令 作用 于 现存 的 图 形 上 的 , 下 表 给 出 了 一 些 主要 的 : 








































































































函数 名 功能 

points(x, y) 添加 点 (可 以 使 用 选项 type=) 

lines(x, y) 同上 , 但 是 添加 线 

text(x, y, labels, 在 (x,y) 处 添 加 用 labels 指 定 的 文字 典型 的 用 法 是 : plot(x，y， 
Ng type="n"); text(x, y, names) 

mtext (text , side=3, 在 边 空 添加 用 text 指 定 的 文字 ， 用 side 指 定 添加 到 哪 一 边 (参照 下 面 的 axis( 
line=0,...) ) ); line 指 定 添加 的 文字 距离 绘图 区 域 的 行 数 

segments(x0, y0, x1, 从 (x0,y0) 各 点 到 (xl,y1) 各 点 画 线段 

y1) 






























































































































































































































































































































































2.6 R 的 图 形 功能 .61 . 
arrows (x0，y0， 同上 , 但 加 画 第 头 . 如 果 code=2, 则 在 各 (x0,y0) 处 画 箭头 ; 如 果 code=1， 则 在 
x1, yl1, angle= 30, 各 (xl1,y1) 处 画 箭头 ; 如 果 code=3, 则 在 两 端 都 画 箭头 angle 控 制 箭头 轴 到 箭头 
code=2) 边 的 角度 . 
abline(a,b) 绘制 斜率 为 和 截 距 为 a 的 直线 
abline (h=y) 在 纵 坐 标 y 处 画 水 平 线 
abline (v=x) 在 横 坐 标 z 处 画 垂直 线 
abline(lm.obj) 画 由 lm.obj 确 定 的 回归 线 
rect(x1，y1，x2，y2) 绘制 长 方形 ，(x1, y1) 为 左下 角 ，(x2,y2) 为 右上 
polygon(x, y) 绘制 连接 各 zx,y 坐 标 确 定 的 点 的 多 边 形 
legend(x, y, legend) 在 点 (x,y) 处 添加 图 例 , 说 明 内 容 由 legend 给 定 
title( ) 添加 标题 , 也 可 添加 一 个 副标题 
axis(side, vect) 画 坐 标 轴 .，side=1 时 画 在 下 边 ; side=2 时 夯 在 左边 side=3 时 夯 在 上 边 ; 

side=4 时 画 在 右边 . 可 选 参数 at 指定 画 刻 度 线 的 位 置 坐标 
box( ) 在 当前 的 图 上 加 上 边框 
rug(x) 在 zx- 轴 上 用 短线 画 出 x 数据 的 位 置 
locator(n, type="n", 在 用 户 用 鼠标 在 图 上 点 击 n 次 后 返回 n 次 点 击 的 坐标 (zx, y); 并 可 以 在 点 击 处 绘 
2) 制 符号 (type="p" 时 ) 或 连 线 (type="1" 时 )， 缺 省 情况 下 不 画 符号 或 连 线 




















~ 
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[ 志 时 4 
壮 忆 : | 





> text(x, y,expres\-sion(...)) 














可 以 在 一 个 图 形 上 加 上 数学 公式 ,函数 expression 把 自 变 量 转 换 为 数学 公式 . 
例如 ， 




















> text(x, y, expression(p==over(1,1+e“-(beta*x+alpha)))) 























在 图 中 相应 坐标 点 (zx,y) 处 显示 下 面 的 方程 : 


. 1 
~ 1+e-(xto). 
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为 了 能 在 表达 式 中 代入 某 个 变量 的 值 ， 我 们 可 以 使 用 函数 substitute( 
) 和 as .expression( ). 例如 ， 为 了 代入 于 的 值 (之 前 计算 并 储存 在 对 
象 Rsquared 中 ) 



































> text(x, y, as.expression(substitute(R*2==r, list(r=Rsquared)))) 











在 图 中 相应 坐标 点 (x,y) 处 显示 : 











R2 = 0.9856298. 











如 果 只 显示 3 位 小 数 ， 上 述 命令 修改 为 : 


> text(x, y, as.expression(substitute(R“2==r, 


list(r=round(Rsquared, 3))))) 


它 将 显示 : 
R2 = 0.986. 





最 后 , 用 斜体 字 显 示 及 ,命令 为 


> text(x, y, as.expression(substitute(italic(R)“2==r, 


list(r=round(Rsquared, 3))))) 


得 到 
R? = 0.986. 


2.6.3 ”绘图 参数 








除了 低级 作 图 命令 之 外 , 图 形 的 显示 也 可 以 用 绘图 参数 来 改良 . 绘图 参数 
可 以 作为 图 形 函数 的 选项 (但 不 是 所 有 参数 都 可 以 这 样 用 ), 也 可 以 用 函数 par ( 
) 来 永久 地 改变 绘图 参数 ,也 就 是 说 后 来 的 图 形 都 将 按照 函数 par( ) 指 定 的 参 
数 来 绘制 . 例如 ， 下 面 的 命令 ; 




















> par(bg="yellow") 











一 














将 导致 后 来 的 图 形 都 以 黄色 的 背景 来 绘制 有 73 个 绘图 参数 , 其 中 一 些 有 非常 
相似 的 功能 . 这 些 参数 详细 的 列表 可 以 通过 help(par) 获 得 . 下 面 的 表格 只 列 
举 了 最 常用 的 参数 . 









































2.6R 的 


图 形 功能 








































































































































































































































































































































































































adj 控制 关于 文字 的 对 齐 方式 : 0 是 左 对 齐 , 0.5 是 居中 对 齐 , 1 是 右 对 齐 , 值 > 1 时 对 齐 位 置 在 文本 右 
边 的 地 方 , 取 负 值 时 对 齐 位 置 在 文本 左边 的 地 方 ; 如 果 给 出 两 个 值 (例如 c(0，0)), 第 二 个 只 控 
制 关 于 文字 基线 的 垂直 调整 

bg 由 定 背景 色 ( 例 如 bg="red", bg="blue"; 用 colors( ) 可 以 显示 657 种 可 用 的 颜色 名 ) 

这 制图 形 边 框 形状 ， 可 用 的 值 为 : vo"，"L"，"7"， "ec", maw 和 "]" (边框 和 字符 的 外 表 相 像 ); 如 
果 bty="n" 则 不 绘制 边框 

cex 空 制 缺 省 状态 下 符号 和 文字 大 小 的 值 ; 另外 ，cex.axis 控 制 坐 标 轴 刻 度数 字 大 小 ，cex.1lab 控 制 
坐标 轴 标 签 文 字 大 小 ，cex .main 控 制 标题 文字 大 小 ，cex .sub 控制 副标题 文字 大 小 

col 空 制 符号 的 颜色 ; 和 cex 类 似 , 还 可 用 : col.axis, col.lab, col.main, col.sub 

font 空 制 文 字 字 体 的 整数 (1: 正常 , 2: 斜体 , 3: 粗 体 , 4: 粗 斜体 ); 和 cex 类 似 , 还 可 用 : font .axis， 
font.lab, font .main, font.sub 

las 空 制 坐标 轴 刻 度数 字 标 记 方向 的 整数 (0: 平行 于 轴 , 1: 横 排 , 2: 垂直 于 轴 ，3: 竖 排 ) 

lty 宅 制 连 线 的 线 型 , 可 以 是 整数 (1: 实 线 , 2: 虚线 ，3: 点 线 , 4: 点 虚线 , 5: 长 虚线 , 6: 双 虚 线 )， 
或 者 是 不 超过 8 个 字符 的 字符 串 (字符 为 从 "0" 到 "9" 之 间 的 数字 ) 交 蔡 地 指定 线 和 空白 的 长 度 ， 
单位 为 磅 (points) 或 象 素 , 例如 1ty="44" 和 1ty=2 效 果 相 同 

lwd 控制 连 线 宽度 的 数字 

mar 控制 图 形 边 空 的 有 4 个 值 的 向 量 c(bottom，1left，top，right)， 缺 省 值 为 c(5.1，4.1，4.1， 
2.1) 

mfcol | clnr,nc) 的 向 量 , 分 割 绘图 窗口 为 ar 行 ac 列 的 矩阵 布局 ， 按 列 次 序 使 用 各 子 窗 

mfrow | 同上 , 但 是 按 行 次 序 使 用 各 子 窗 

pch 空 制 符号 的 类 型 , 可 以 是 1 到 25 的 整数 , 也 可 以 是 "里 的 单个 字符 ( 见 图 2.4) 

ps 空 制 文字 大 小 的 整数 , 单位 为 磅 (points) 

pty 由 定 绘图 区 域 类 型 的 字符 ,，"s": 正方 形 ;,"m": 最 大 利用 

七 CK 指定 轴 上 刻度 长 度 的 值 ， 单位 是 百分比 ， 以 图 形 宽 、 高 中 最 小 一 个 作为 基数 ， 如 果 tck=1 则 绘 
制 grid 

tcl 司 上 , 但 以 文本 行 高 度 为 基数 ( 缺 省 下 tcl=-0.5) 

xaxt 如 果 xaxt="n" 则 设置 x- 轴 但 不 显示 (有 助 于 和 axis(side=1，...) 联 合 使 用 ) 

yaxt 如 果 yaxt="n" 则 设置 y- 轴 但 不 显示 (有 助 于 和 axis (side=2，.. .) 联 合 使 用 ) 








. 64 . 第 二 章 及 的 基本 原理 与 核心 





1 2 3 4 5 6 7 8 9 10 
DD 中 六 国米 兮 图 


11 12 13 14 15 16 17 18 19 20 


XHAAOAeeO。 


























21 22 23 24 25 mn voy ad wx "an 


OSAy:? X a 

















图 2.4 及 (pch=1:25) 的 绘图 符号 . 用 选项 col="blue"，bg="yellow" 来 产生 
如 上 的 颜色 ， 其 中 背景 色 选 项 只 对 符号 21-25 有 作用 . 可 以 使 用 任意 字符 作为 
绘 点 符号 (pch="k"， "3" .1 ). 




















2.6.4 ”一 个 实例 


这 一 小 节 我 们 仍 以 及 软件 的 内 骨 数 据 Puromycin 来 说 明 及 软件 中 基本 的 会 
图 方法 . Puromycin 的 结构 如 下 : 





> dim(Puromycin) 

[1] 23 3 

> head (Puromycin) 
conc rate state 

.02 76 treated 

.02 47 treated 

.06 97 treated 

.06 107 treated 

.11 123 treated 

.11 139 treated 


Oo 人 OD- 
OO OO OO Ooo 


2.6 R 的 图 形 功 能 








简单 的 散 点 图 (scatterplot) 























对 于 状态 (state) 为 treated, 画 出 rate 关 于 cone 的 散 点 图 , 见 图 2.5: 


> PuroA <- subset (Puromycin, state == "treated") 


> plot(rate ~ conc, data = PuroA) 
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图 2.5 简单 的 散 点 图 图 2.6 使 用 彩色 符号 散 点 图 











指明 所 用 的 数据 集 








有 三 种 方法 指明 函数 plot ( ) 使 用 的 数据 集 : 











A 


1) plot( ) 函 数 中 使 用 daata 选 项 ; 
2) 在 with( ) 中 使 用 plot( ); 











> with(PuroA, plot(conc, rate)) 














3) 使 用 $ 直接 指向 数据 与 变量 


> plot (PuroA$rate, PuroA$conc) 








1) 及 提供 了 25 种 不 同 的 符号 和 8 种 不 同 的 颜色 , 浏览 它们 的 命令 是 : 
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> u <- 1:25 
> plot(u ~ 1, pch = u, col = u, cex = 3) 



































2) 选择 合适 的 符号 及 其 大 小 与 颜色 . 例如 图 2.6 是 由 图 2.5 选 用 绿色 (选项 
为 col=4 或 col="blue") 小 三 角形 (选项 为 pch=2 或 pch="T") 得 到 的 , 大 小 
为 cex=2.5 倍 缺 省 值 , 其 命令 为 : 

















ll 
DL 


> plot(rate ~ conc, data = PuroA, pch 
col = 4, cex = 2.5) 





坐标 轴 与 标题 设 定 . 命令 


CD 
Re 
[六 


> plot(rate ~ conc, data = PuroA, pch = 2，col = 4， 
cex = 2.5, xlim = c(0, 1.2), ylim = c(40, 210), 
ylab = "Concentration", 
xlab = "Rate", cex.lab = 2) 


> title(main = "Puromycin", cex.main = 3) 





得 到 图 2.7, 它 做 的 工作 有 : 
e。 限定 X 轴 范围 为 0 到 1.2, 了 轴 范 围 为 40 到 210 
e 和 轴 标 为 “Rate”, Y 轴 标 为 “Concentration” 
。 规定 坐标 轴 标 签 大 小 (cex.1ab=1 .2) 


e 增加 图 题 









































1) 连接 数据 点 . 命令 





> library(doBy) # 需要 先 安 装 


> PuroA.mean <- summaryBy(rate ~ conc, data = PuroA， 


FUN = mean) 

> plot(rate ~ conc, data = PuroA, pch = 16, col = 4, 
cex = 1.5) 

> points(mean.rate ~ conc, data = PuroA.mean, col = "cyan'", 
lwd = 10, pch = "x") 


> lines(mean.rate conc, data = PuroA.mean, col = "blue'") 
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图 2.7 设 定 坐标 轴 与 标题 图 2.8” 散 点 联 线 














得 到 图 2.8, 它 做 的 工作 有 : 

e 使 用 doBy 包 的 summaryBy( ) 计 算 每 一 浓度 (concentration) 处 的 平均 
值 

。 在 每 一 浓度 的 平均 值 处 作 点 

。 用 直线 连接 这 些 点 
添加 局 部 多 项 式 拟 合 线 . locfit( ) 由 局 部 多 项 式 包 1ocfit 提 供 ( 需 要 安 
装 ). 其 参数 nn 为 光滑 化 参数 , 用 于 指明 曲线 的 光滑 程度 ; 参数 deg 指 明 所 
使 用 的 局 部 光滑 的 多 项 式 的 次 数 ， 下面 的 命令 给 出 了 二 条 光滑 曲线 ( 见 
图 2.9): 



























































plot(rate ~ conc, data = PuroA) 

smooth1 <- with(PuroA, lowess(rate ~ conc, f = 0.9)) 
smooth2 <- with(PuroA, lowess(rate ~ conc, f = 0.3)) 
lines(smoothi, col = "red") 


lines(smooth2, col = "blue") 


添加 多 项 式 拟 合 线 . 下 面 的 命令 给 出 了 一 次 、 二 次 和 三 次 多 项 式 拟 合 ( 见 
图 2.10): 





> ml <- lm(rate ~ conc, data = PuroA) 


> m2 <- lm(rate conc + I(conc*°2), data = PuroA) 
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2.9 添加 二 条 光滑 线 图 2.10 添加 三 条 拟 合 线 


> m3 <- lm(rate ~ conc + I(conc”`2) + I(conc“3), 


data = PuroA) 


> lines(fitted(m1) ~ conc, data = PuroA, col = "red'") 
> lines(fitted(m2) ~ conc, data = PuroA, col = "blue'") 
> lines(fitted(m3) ~ conc, data = PuroA, col = "cyan'") 














添加 参考 线 . 函数 abline( ) 可 用 于 产生 

e 回归 直线 : abline (lm(...)) 

e。 直线 : abline(a,b) 

e 年 直 线 abline(v=al) 

。 水 平 线 : abline (h=b) 
命令 
> plot(rate ~ conc, data = PuroA) 
> abline(lm(rate ~ conc, data = PuroA)) 
> abline(a = 100, b = 105, col = "blue") 
> abline(h = 200, col = "red") 
> abline(v = 0.6, col = "green'") 
产生 图 2,11. 
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而 


2.11 添加 参考 线 图 2.12 二 个 图 形 的 县 加 











图 形 的 全 加 
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两 个 散 点 图 的 合 加 .下面 的 命令 将 Puromycin 中 变量 rate 与 conc 之 间 的 关 
系 按 state 的 两 个 值 分 别 画 出 散 点 图 . 对 于 “trreated” 使 用 符号 1 和 颜色 1， 
对 于 “untreated” 使 用 符号 2 和 颜色 2( 见 图 2.12), 命令 为 : 





























> mysymb <- c(1, 2) [Puromycin$statej] 
> plot(rate ~ conc, data = Puromycin, col = mysymb, 


pch = mysymb) 











再 对 每 一 state 在 散 点 图 上 添加 局 部 多 项 式 光 滑 线 , 产生 图 2.13, 命令 为 : 











PuroB <- subset (Puromycin, state == "untreated'") 


Vv 


smoothA <- locfit(rate ~ lp(conc, nn = 1, deg = 1), 
data = PuroA) 


Vv 


1) ， 


smoothB <- locfit(rate ~ lp(conc, nn = 1, deg 
data = PuroB) 


Vv 


plot(rate ~ conc, data = Puromycin, col = mysymb, 
pch = mysymb) 

lines(smoothA, lty = 1) 

lines(smoothB, lty = 3) 


Vv 


Vv 








添加 图 例 (legend)， 图 2.14 是 在 图 2.13 的 基础 上 在 (x,y) = (0.6,100) 添 加 
了 图 例 , 其 命令 为 : 
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> plot(rate ~ conc, data = Puromycin， 


col = c(1, 2)[state], pch = c(1, 2) [state]) 


> legend(x 0.6, y = 100， 


legend = c("treated", "untreated"), 
col = c(1, 2), pch = c(1, 2), lty = c(1, 3)) 







































































































































































注 : 使 用 locator(1) 人 代替 legend( ) 中 的 位 置 选 项 x=，y= 可 通过 鼠标 找 
到 合适 的 位 置 放置 图 例 . 
， 本 
图 2.13 ”添加 光滑 线 的 图 形 琶 加 图 2.14 添加 图 例 的 图 形 受 加 
作 并 列 图 
使 用 函数 par( ) 可 以 完成 在 同一 个 窗口 中 国 多 个 图 形 ， 其 格式 
为 par (mfrow = cm，n)),， 它 表示 将 当前 的 窗口 分 割 为 m x n 个 窗 例 
如 , 要 在 同一 个 窗口 中 作出 state 的 两 个 值 对 应 的 两 个 散 点 图 ( 见 图 2.15), 命令 
如 下 : 
> windows (width = 7, height = 3.5) 
> par (mfrow = c(1, 2)) 
> plot(rate ~ conc, data = PuroA) 
> title("state=treated") 
> plot(rate ~ conc, data = PuroB) 
> title("state=untreated") 
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图 2.15 ”同一 窗口 的 二 个 并 列 散 点 









































要 返回 通常 的 区 域 中 作 图 , 可 通过 命令 dev.off( ) 先 将 原来 的 图 形 关 闭 ， 
也 可 直接 关闭 图 形 窗口 . 


命令 par(mfrow = clm, n)) 将 作 图 区 域 等 分 为 m x n( 横 向 m 行 , 纵 
和 辣 n 列 ) 个 窗口 , 这 也 可 以 用 命令 layout (matrix(1:mkn，zm，Dn)) 来 实现 ， 
但 后 者 可 以 将 作 图 区 域 划 分 为 不 等 大 小 的 窗口 . 我 们 来 看 一 下 layout( 
) 函数 中 的 一 个 例子 . 命令 : 




































































>#-- Create a scatterplot with marginal histograms -- 

> x <- pmin(3, pmax(-3, stats::rnorm(50))) 

>y <- pmin(3, pmax(-3, stats::rnorm(50))) 

> xhist <- hist(x, breaks=sedq(-3,3,0.5), plot=FALSE) 

yhist <- hist(y, breaks=seq(-3,3,0.5), plot=FALSE) 

top <- max(c(xhist$counts, yhist$counts)) 

xrange <- c(-3,3); yrange <- c(-3,3) 

layout (matrix(c(2,0,1,3), 2，,2, byrow=TRUE), 
c(3,1), c(1,3), TRUE) 


> 
> 
> 
> 














> layout.show(3) # 给 出 作 图 窗口 及 编号 
> 
> par (mar=c(3,3,1,1)) # 设 定 边界 空 行 数 
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> plot(x, y, xlim=xrange, ylim=yrange, xlab="", ylab="") 
> par (mar=c(0,3,1,1)) 
> barplot (xhist$counts, axes=FALSE, ylim=c(0, top), space=0) 
> par (mar=c(3,0,1,1)) 
> barplot (yhist$counts, axes=FALSE, xlim=c(0, top), 
space=0, horiz=TRUE) 


对 于 向 量 (数据 )z 和 y 同 时 作出 它们 的 散 点 图 和 边际 直方 图 . 程序 的 前 一 
部 分 给 出 三 个 作 图 区 域 ( 见 图 2.16), 窗口 1 为 3cmx3cm, 用 于 作出 z 与 y 的 
散 点 图 ; 窗口 2 为 3cmxlcm, 用 于 作出 x 的 散 点 图 ; 窗口 3 为 lemx3cm, 
于 作出 y 的 散 点 图 , 最 后 得 到 图 2.17. 








































































































































































































2.16” 作 图 区 域 分 割 及 位 置 


区 

















2.17 二 维 散 点 图 及 边际 直方 图 














82.7 R 编程 





至 此 , 我 们 已 经 对 及 软件 的 功能 有 了 全 面 的 了 解 ， 一 些 统计 分 析 都 是 
在 及 的 对 话 窗口 (R Console) 中 进行 的 . 但 对 于 复杂 的 统计 分 析 显 然 是 不 方便 


的 . 下 面 从 统计 语言 和 编程 角度 来 说 明 R 编 程 中 的 一 些 基本 技术 . 
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2.7.1 “循环 和 向 量化 





相 比 下 拉 菜 单 式 的 程序 ", 及 的 一 个 优势 在 于 它 可 以 把 一 系列 连续 的 操作 
简单 的 程序 化 . 这 一 点 和 所 有 其 他 计算 机 编程 语言 是 一 致 的 , 但 R 有 一 些 特性 
使 得 非 专 业 人 士 也 可 以 很 简单 地 编写 程序 . 






































控制 结构 




















和 其 他 编程 语言 一 样 , 及 有 一 些 和 C 语 言 (或 其 它 语言 ) 类 似 的 控制 结构 . 























1) 条 件 语句 : 条 件 语句 常用 于 避免 除 零 或 负数 的 对 数 等 数学 问题 . 它 有 二 种 
形式 : 
e if (条 件 ) 表达 式 1 else 表达 式 2 
e ifelse( 条 件 ，yes，no) 


例如 : 




















> if (x >= 0) sqrt(x) else NA 
> ifelse(x >= 0, sqrt(x), NA) 





循环 (loops). 它 也 有 二 种 形式 : 





MP 
Se 














e 使 用 函数 for( ): for (变量 in 向 量 ) 表达 式 
e 使 用 函数 while( ): while( 条 件 ) 表达 式 


两 者 略 有 区 别 : 若 知道 终止 条 件 则 用 for( ); 若 无 法 知道 运行 次 数 , 则 
用 while( ). 例如 , 比较 下 面 的 两 种 方法 : 
























































> for (i in 1:5) print (1:i) 
> i=1 
> while(i <= 5) { 
print(1s1i) 
i = i+1 


. 






































通常 将 一 组 命令 放 在 大 括号 内 . 又 如 , 假定 我 们 有 一 个 向 量 z, 对 于 向 量 z 中 值 
为 b 的 元 素 , 把 0 赋 给 马 外 一 个 等 长 度 的 向 量 y 的 对 应 元 素 , 否则 赋 1, 程序 如 下 
9 我 们 将 在 附录 中 介绍 一 个 RR 下 开发 的 菜单 式 软件 : R Commander. 
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> y <- numeric(length(x)) # 创 建 一 个 x 等 长 的 向 量 y 
> for (i in 1:1ength(x)){ 
if (x[i] == b) 
y[li] <- 0 
else 


y[i] <- 1 





} 


向 量化 (vectorization) 











在 R 在 , 很 多 情况 下 循环 和 控制 结构 可 以 通过 向 量化 





























的 例子 可 以 改写 为 : 


> y[x == bj] <- 0 
> y[x != bj <- 1 





在 实际 编程 时 , 如 果 能 将 一 组 命令 向 量化 , 则 应 尽量 避免 循环 , 原因 在 于 

















。 代 码 更 简洁 








使 得 循环 隐 含 在 表达 式 中 . 比如 , 条 件 语 句 也 可 以 用 逻辑 索引 向 量 代替 . 前 面 


避免 (简化 ): 向 量化 



































。C 是 一 种 编译 语言 ， 其 效率 是 很 高 的 ; 及 则 是 一 种 解释 语言 . 在 计算 时 ， 











通常 C 要 比 及 快 100 倍 . 









































。 在 R 中 使 用 向 量化 , R 会 立即 调用 C 进 行 运算 ， 因而 大 大 提高 计算 的 效率 . 





2.7.2 ”用 RR 写 程序 





一 般 情况 下 , 一 个 R 程 序 以 ASCII 格式 保存 ,扩展 名 为 ‘.R”. 如 果 一 个 工作 
要 重复 好 多 次 , 用 R 程 序 是 一 个 不 错 的 选择 . 考虑 这 样 的 例子 : 我 们 想 对 三 种 不 
同 的 鸟 绘制 一 样 的 图 , 而 且 数据 在 三 个 不 同 的 文件 中 . 我 们 将 一 步 一 步 的 演示 
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二 种 不 同 的 方式 , 看 及 是 如 何 完成 这 个 简单 的 过 程 ， 
































首先 , 我 们 赁 直觉 连续 键入 一 系列 命令 , 而 且 预 先 分 割 图 形 界面 : 
> layout (matrix(1:3, 3, 1)) # 分 割 图 形 界 面 
> data <- read.table('"Swal.dat") # 读 入 数据 


> plot(data$Vi, data$V2, type="1") 


2.7 及 编程 "TDs 





title("swallow'") # 增 加 标题 
data <- read.table("Wren.dat") 

plot(data$Vi, data$V2, type="1") 

title("wren") 

data <- read.table("Dunn.dat") 

plot(data$Vi, data$V2, type="1") 
title("dunnock") 


V V VvV V VvV Vv YY 





我 们 看 到 一 些 命令 多 次 执行 , 因此 它们 可 以 放 在 一 起 ,在 执行 的 时 候 仅仅 
修改 一 些 参数 . 这 里 的 策略 是 把 参数 放 到 一 个 字符 型 的 向 量 中 去 , 然后 用 下 标 
去 访问 这 些 不 同 的 值 . 修改 后 的 程序 如 下 : 












































> layout (matrix(1:3, 3, 1)) # 分 割 图 形 界面 
> Species <- c("swallow", "wren", "dunnock") 
> file <- c('"Swal.dat" , "Wren.dat", "Dunn.dat") 


> for(i in i:length(species)) { 


data <- read.table(file[i]) # 读 入 数据 
plot (data$Vi, data$V2, type="1") 
title(species[i]) # 增加 标题 











如 果 程 序 保存 在 文件 Mybirds.R. 中 , 可 以 通过 键入 如 下 命令 执行 : 























> source("Mybirds.R") 





注意 : 和 所 有 以 文件 作为 输入 对 象 的 函数 一 样 , 如 果 该 文件 不 在 当前 工作 目录 
下 面 , 用 户 需要 提供 该 文件 的 绝对 路 径 . 



































2.7.3 ”编写 你 自己 的 函数 





大 多 数 及 的 工作 是 通过 函数 来 实现 的 , 而 且 这 些 函数 的 输入 参数 都 放 在 一 
个 括 弧 里 面 . 用 户 可 以 编写 自己 的 函数 , 并 且 这 些 函 数 和 及 里 面 的 其 它 函 数 有 
一 样 的 特性 . 
函数 是 一 系列 语句 的 组 合 , 形式 为 : 
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函数 定义 的 基本 形式 








交 量 名 = function( 变量 



































编写 自己 的 函数 可 以 让 你 有 效 、 灵 活 、 合 理 地 使 用 及 . 我 们 再 次 使 用 前 面 
























































读数 据 并 且 画 图 的 例子 . 如 果 我 们 想 在 其 它 情况 下 进行 这 样 的 操作 , 写 一 个 函 
数 是 一 个 不 错 的 想法 : 





























> myfun <- function(S, F) { 
data <- read.table(F) 
plot (data$Vi, data$V2, type="1") 
title(s) 





执行 时 , 这 个 函数 必须 载 入 内 存 . 一 旦 函数 载 入 后 , 我 们 就 可 以 键入 一 条 命令 
以 读 入 数据 和 夯 出 我 们 想 要 的 图 . 因此 , 现在 我 们 的 程序 有 第 三 个 实现 的 版 本 
J 











layout (matrix(1:3, 3, 1)) 
myfun("swallow", "Swal.dat") 


myfun("wren", "Wrenn.dat'") 


Wo WY 


myfun("dunnock", "Dunn.dat") 


我 们 还 可 以 用 sapply( )2 实现 程序 的 第 四 个 版 本 : 


layout (matrix(1:3, 3, 1)) 
Species <- c("swallow", "wren", "dunnock") 


file <- c("Swal.dat" , "Wren.dat", "Dunn.dat") 


V YY YY 


sapply(species, myfun, file) 








函数 的 调用 与 其 参数 的 位 置 与 名 字 ( 又 称 为 标签 参数 ) 有 关 ， 假 定 函 
数 foo1( ) 有 三 个 参数 , 其 定义 为 : 














> fool <- function(argl，arg2，arg3) {...} 






































1 对 于 向 量 或 列表 X 和 作用 它们 的 函数 “Fun”, 在 及 中 可 使 用 命令 1apply(X，Fun ) 和 sapply(X，Fun 
), 两 者 的 差异 仅 在 于 : 前 者 返回 与 X 长 度 相 等 的 一 个 列表 , 后 者 返回 一 个 向 量 或 矩阵 . 两 者 本 质 上 相同 , 后 者 
只 是 为 前 者 的 友好 形式 . 
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则 计算 函数 foo(x,y,z) 在 (www) 处 的 值 , 可 以 采用 下 面 两 种 方法 中 的 一 种 : 




















> fool(u, Vv, W) # ” 按 位 置 调用 函数 
> fool(arg3=w，arg2=v，arg1=u) # 按 名 字 调 用 


R 函 数 的 另外 一 个 特性 是 函数 调用 可 以 采用 定义 时 的 默认 设置 . 例如 郴 
数 foo2( ) 也 有 三 个 参数 , 其 定义 为 : 























> foo2 <- function(argl, arg2 = 5, arg3 = FALSE) {...} 


则 下 面 的 三 种 命令 等 价 





> foo02(x)} 
> foo2(x，5，FALSE) 
> foo2(xX，arg3 = FALSE) 


























使 用 一 个 函数 的 默认 设置 非常 有 用 , 特别 在 使 用 标签 参数 的 时 候 , 例如 

















> fo02(x, arg3 = TRUE) 


仅仅 改变 一 个 默认 设置 . 

在 结束 本 章 前 , 我 们 来 看 另外 一 个 例子 . 尽管 这 个 例子 不 是 纯粹 的 统计 学 
例子 , 但 是 它 很 好 地 展示 了 及 语言 的 灵活 性 . 假定 我 们 想 研 究 一 个 非 线性 模型 
的 行为 : 这 个 模型 (Ricker 模型 ) 的 定义 如 下 : 


AN 
Ai = Nexp |， ( 一 总 )| 


这 个 模型 广泛 地 用 于 种 群 动态 变化 的 研究 , 特别 是 鱼 类 的 种 群 变 化 . 我 们 想 用 
一 个 函数 去 模拟 这 个 模型 关于 增长 率 r 和 初始 群体 大 小 No 的 变化 情况 (承载 能 
力 玉 常常 设 定 为 1 且 以 这 个 值 作为 默认 值 ); 结果 将 以 种 群 大 小 相对 时 间 的 图 表 
示 . 我 们 还 将 设 定 一 个 可 选项 允许 用 户 只 显示 最 后 若干 步 中 种 群 大 小 (默认 所 
有 结果 都 会 被 绘制 出 来 ). 下 面 的 函数 就 是 Ricker 模 型 的 数值 模拟 . 






























































































































































> ricker <- function(nzero, r, K=1, time=100, from=0, to=time) { 
N <- numeric(time+1) 


N[1] <- nzero 
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for (i in 1:time) N[i+1] <- N[i]j*exp(r*(1 - NL[ 
Time <- 0:time 


plot (Time, N, type="1l", xlim=c(from, to0)) 


了 

你 可 以 试 一 试 下 面 的 代码 : 
> layout (matrix(1:3, 3, 1)) 
> ricker(0.1, 1); title('"r = 1") 
> ricker(0.1, 2); title("r = 2") 
> ricker(0.1, 3); title("r = 3") 


2.7.4 ” 养 成 良好 的 编程 习惯 

















为 了 他 人 , 更 为 你 本 人 ! 你 的 程序 应 该 具有 

















。 可 读 性 (readability) 





e 可 理解 性 (understandability) 





为 此 你 应 该 养 成 四 个 良好 的 习惯 : 





习惯 之 一 : 采用 结构 化 、 模 块 化 编程 ; 











i]/K)) 





习惯 之 二 : 增加 注释 (Commenting), 及 中 使 用 # 作为 注释 语句 的 开始 ; 
习惯 之 三 : 使 用 意义 明确 的 名 字 给 变量 命名 , 切忌 使 用 人 或 宠物 的 名 字 ; 





















































习惯 之 四 : 行 前 自动 缩 进 (Indentation), 在 此 推荐 使 月 
在 有 针对 RR 的 平台 : RWinEdt. 见 附录 A 的 具体 介绍 . 












































日 软件 WinEdt, 现 
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第 二 章 习题 








2.1 “用 函数 rep( ) 构 造 一 个 向 量 z, 它 由 3 个 3, 4 个 2, 5 个 1 构成 . 
2.2 ”由 1,2,...,16 构 成 二 个 方 阵 , 其 中 矩阵 4 按 列 输入 , 矩阵 B 按 行 输入 , 3 












































1) C=A+B; 
2) D= AB; 
3) bE= (@2 ) res 


4) 去 除 4 和 第 3 行 , B 的 第 3 列 , 重新 计算 上 面 的 矩阵 五 


2.3 ”了 甬 数 solve( ) 有 二 个 作用 : solve (A,b) 可 用 于 求解 线性 方程 组 Ax = 必 
solve(A) 可 用 于 求 矩 阵 4 的 逆 . 设 





























用 二 种 方法 编程 求 方程 组 Ax = 5b 的 解 . 
2.4 ” 设 z 与 y 表 示 n 维 的 问 量 , 则 x%*%y 或 crossprod(x,y) 用 于 求 它们 的 内 积 ， 
即 t (x)%*%y; 而 x%oyy 或 outer(x，y) 用 于 求 它 们 的 外 积 (又 积 )， 即 xy%#x%t (y)， 
其 中 (t( )) 表 示 和 矩阵 或 向 量 的 转 置 . 设 z = (1,2,3,4,5),y = (2,4,6,8,10). 用 三 
种 不 同 的 方法 求 它们 的 内 积 与 外 积 . 
2.5 ”编写 一 个 用 二 分 法 求 非 线性 方程 根 的 函数 , 并 求 方程 






















































































zl1=0 





在 区 间 [1,2] 内 的 根 , 精度 要 求 e = 10-5. 

2.6 ”自己 编写 一 个 函数 , 求 数 据 y = (yi1,y2,.… ,yn) 的 均值 、 标 准 差 、 偏 度 与 
峰 度 . 

2.7 “有 10 名 学 生 的 身高 与 体重 数据 如 表 2.7 所 示 . 









































1) 用 数据 框 的 形式 读 入 数据 ; 


2) 将 数据 表 2.7 写 成 一 个 纯 文 本 的 文件 , 并 用 函数 read.table( ) 读 取 该 文 
件 中 的 数据 ; 





















































* 80. 第 二 章 及 的 基本 原理 与 核心 
表 2.7 学 生 身 高 与 体重 数据 

序号 性 别 年 龄 身高 /cm 体重 /kg 
1 F 14 156 42.3 
2 F 16 158 45.0 
3 F 15 161 48.5 
4 F 17 156 51.5 
5 F 15 153 44.6 
6 M 14 162 48.8 
7 M 16 157 46.7 
8 M 14 159 49.9 
9 M 15 163 50.2 
10 M 16 165 53.7 

















用 函数 write.csv( ) 写 成 一 个 能 用 Excel 打 开 的 文人 





F, 测试 是 否 成 功 . 














第 三 草 ”概率 与 分 布 


本 章 概 要 
4 随机 抽样 的 实现 
4 常用 的 概率 分 布 及 其 数字 特征 
4 BR 中 内 骸 的 分 布 























83.1 ”随机 抽样 


众所周知 , 概率 论 早期 研究 的 是 游戏 或 赌博 等 随机 现象 中 有 关 的 概率 问 
题 . 这 些 现象 在 及 中 可 以 通过 函数 sample( ) 来 实现 . 



































1) 等 可 能 的 不 放 回 的 随机 抽样 : 








> sample(x, n) 


其 中 x 为 要 抽取 的 向 量 , n 为 样本 容量 . 例如 从 52 张 扑克 牌 中 抽取 4 张 对 应 
的 R 命 令 为 : 





















































> sample(1:52, 4) 
[1] 3 16 17 15 


2) 等 可 能 的 有 放 回 的 随机 抽 

















人 > 


A: 











> sample(x, n, replace=TRUE) 


其 中 选项 replace=TRUE 表 示 抽 样 是 有 放 回 的 此 选项 省 略 或 
为 replace=FALSE 表 示 抽 样 是 不 放 回 的 ， 例 如 抛 一 枚 均匀 的 硬币 10 次 
在 及 中 可 表示 为 : 
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> sample(c("H", "T"), 10, replace=T) 
[1] "nH" i ee "了 7 "了 7 a nT" nH" nH" nH" 


掷 一 棵 蜗 子 10 次 可 表示 为 : 


> sample(1:6, 10, replace=T) 
[1] 4345462634 











3) 不 等 可 能 的 随机 抽样 : 





> sample(x, n, replace=TRUE, prob=y) 








其 中 选项 prob=y 用 于 指定 x 中 元 素 出 现 的 概率 , 向 量 y 与 x 等 长 度 . 例如 一 
名 外 科 医 生 做 手术 成 功 的 概率 为 0.90, 那么 他 做 10 次 手术 在 R 中 可 以 表示 
为 : 


























> sample(c(" 成 功 "， "失败 ") ，10， replace=T, prob=c(0.9,0.1)) 





若 以 1 表示 成 功 , 0 表示 失败 , 则 上 述 命令 可 变 为 : 





> sample(c(1,0), 10, replace=T, prob=c(0.9,0.1)) 
[1] 1110111111 


83.2 ”排列 组 合 与 概率 的 计算 


我 们 仍 以 扑克 牌 为 例 加 以 说 明 . 
例 3.2.1 ”从 一 副 完 全 打 乱 的 52 张 扑克 中 取 4 张 , 求 以 下 事件 的 概率 : 














1) 抽取 的 4 张 依次 为 红心 A, 方块 A， 黑 桃 A 和 梅花 A 的 概率 ; 
2) 抽取 的 4 张 为 红心 A, 方块 A， 黑 桃 A 和 梅花 A 的 概率 . 








解 








1) 抽取 的 4 张 是 有 次 序 的 , 因此 使 用 排列 来 求解 . 所 求 的 事件 ( 记 为 A) 概 率 为 


1 
52 x 51 x 50 x 49° 

















BOS 





在 及 中 计算 得 到 








3.3 概率 分 布 .83 . 





> 1/prod(52:49) 
[1] 1.539077e-07 








2) 抽取 的 4 张 是 没有 次 序 的 , 因此 使 用 组 合 数 来 求解 . 所 求 的 事件 ( 记 为 B) 概 




















率 为 
P(B) DN 
(4) 
其 中 (2) = ;i 在 R 中 计算 得 到 


> 1/choose(52 ,4) 
[1] 3.693785e-06 


83.3 ”概率 分 布 


概率 论 与 数理 统计 是 研究 随机 现象 统计 规律 性 的 一 门 学 科 . 对 于 一 
其 体 的 问题 , 通常 归结 为 对 一 个 随机 变量 或 随机 向 量 (X) 的 取 值 及 其 取 值 




















i 





























概率 的 研究 , 即 对 于 事件 P(X < xz) 的 研究 . 这 就 是 随机 变量 的 累积 分 布 逊 
数 (CDF), 记 为 F(x). 因此 随机 变量 统计 规律 可 以 用 累积 分 布 函 数 来 刻 划 . 对 
于 离散 型 随机 变量 ( 取 值 为 有 限 或 可 列 无 限 ), 其 统计 规律 通常 转化 为 对 分 布 
律 f(z) = P(X = x) 的 研究 , 它 与 分 布 函数 的 关系 为 F(z) = ,<, P(X = 加); 
而 对 于 连续 型 随机 变量 ( 取 值 充满 整个 区 间 )， 其 统计 规律 通常 转化 为 对 概率 密 
度 函 数 (z) 的 研究 , 它 与 分 布 函 数 的 关系 为 F(z) = 三 f(z)dz， 下 面 我 们 分 
离散 与 连续 二 种 情况 分 别 介绍 它们 的 分 布 律 或 密度 函数 , 在 此 我 们 不 加 区 分 地 
使 用 f(zx). 






























































































































































1) 贝 努 里 分 布 : binom(1,p) 
。 意义 : 一 试验 中 有 二 个 事件 : 成 功 ( 记 为 1) 与 失败 ( 记 为 0), 出 现 的 概率 
是 分 别 为 p 和 1 一 p, 则 一 次 试验 ( 称 为 贝 努 里 试验 ) 成 功 的 次 数 服从 一 
个 参数 为 p 的 贝 努 里 分 布 . 
。 分 布 律 : 


















































lh 


f(zIp) = p*(1—p)'®, z=0,1 (0<p<1). 
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e 数字 特征 : E(X) = p, Var(X) = p(1 — p). 
2) 二 项 分 布 : binom(n,p) 


。 意义 : 贝 努 里 试验 独立 地 重复 n 次 , 则 试验 成 功 的 次 数 服 从 一 个 参数 
为 (n, p) 的 二 项 分 布 . 
。 分 布 律 : 





jzlm,D) = ra- = 0 


e 数字 特征 : E(X) = np, Var(X) = np(1 — Dp). 
。 特例 : n = 1 时 分 布 为 贝 努 里 分 布 . 

















3) 多 项 分 布 : multinom(n, pi1,:… ,px) 
。 意 义 : 一 试验 中 有 k 个 事件 4i,i = 1 2…… ,5， 且 P(L4) = p; 
(0 < p; < 4 pp = 1)， 将 此 试验 独立 地 重复 n 次 ， 则 事 
件 和 ,42,… Ax 出现 的 次 数 服从 一 个 参数 为 (n, p) 的 多 项 分 布 , 其 
中 p = (p1, p2,*** ,Pk). 
。 分 布 律 : 




















k 
nl i 加 
ope 二 p> "px, 0 
。 数字 特征 : E(X;) = np,Var(Xi) = np(l — p),Cov(Xi, X;) = 

— NPiDj. 
。 特例 : 有 = 2 时 分 布 为 二 项 分 布 . 





4) 负 二 项 分 布 : nbinom(k,p) 














。 意义 : 贝 努 里 试验 独立 地 重复 进行 , 一 直到 出 现 次 成 功 时 停止 试验 ， 
则 试验 失败 的 次 数 服从 一 个 参数 为 (kK, p) 的 负 二 项 分 布 . 


。 分 布 律 : 








工 (到 十 Z) 和 


Hal) = EEG), 0 








。 数字 特征 : E(X) = ta hp) 


p2 


3.3 概率 分 布 .85 . 





。 特例 : 天 = 1 时 的 分 布 为 几何 分 布 . 


5) 几何 分 布 : geom(p) 
。 意义 : 努 里 试验 独立 地 重复 进行 , 一 直到 出 现 有 成 功 出 现时 停止 试 
验 , 则 试验 失败 的 次 数 服从 一 个 参数 为 p 的 几何 分 布 . 


。 分布 律 : 















































jzD) = 一 DJ， z=0,1,2,... 


。 数字 特征 : E(X) = (2, Var(X) = 二 到 


D 
6) 超 几 何 分 布 : hyper(N, M,n) 
。 意义 : 从 并 有 N 个 白 球 和 M 个 黑 球 的 炙 子 中 不 放 回 地 取出 k(< N 十 


汉中 

































































MM) 个 球 , 则 其 中 的 白 球 数 服 从 超 儿 何 分 布 . 
。 分布 律 : 
f(z|N, M,k) = Ca) (ea) z=0,1,2,...min{N,k} 
3 ) Te Ce 》 a eek 》 


。 数字 特征 : E(X) = 丰 宙 ,Var(X) = (让 (1 一 7). 











7) 泊 松 分 布 : pois( 入 ) 
。 意义 : 单位 时 间 , 单位 长 度 , 单位 面积 , 单位 体积 中 发 生 某 一 事件 的 
次 数 常 可 以 用 泊 松 (Poisson) 分 布 来 刻 划 , 例如 某 段 高 速 公 路 上 一 年 
内 的 交通 事故 数 和 某 办 公 室 一 天 中 收 到 的 电话 数 可 以 认为 近似 服从 


泊 松 分 布 . 


。 分 布 律 : 























































































































A 
f(z|N) = oie ) T= 1,2,.…: 


。 数字 特征 : E(X) = 入, Var(X) = 入 . 


1) 贝塔 分 布 : Beta(a, D) 
。 意义 : 在 贝 叶 斯 分 析 中 ,贝塔 分 布 常 作为 二 项 分 布 参数 的 共 斩 先 验 分 
布 . 
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。 密度 函数 : 
f(z|a,b) = Ba 本 Ze (一 2Z)o 0<z<1 (a,b>0). 
“数字 特征 ; 种 (X) 二 ayy Var(X) 二 全 
。 特例 : a = 1,5 = 1 时 的 分 布 为 [0,1] 上 的 均匀 分 布 . 
2) 均匀 分 布 : unif(a,5) 
。 意义 : 区 间 [a,8] 上 随机 投 点 对 应 的 坐标 服从 [a, 上 的 均匀 分 布 . 


。 密度 函数 : 
f(zla,db) = Do 


。 数字 特征 : E(X) = 


3) 柯 西 分 


2, Var(X) 一 


三: cauchy(a, b) 


。 意义 : 柯 西 分 布 (又 称 为 Lorentz 分 布 ) 用 于 描述 
的 水 平 距离 服从 柯 西 分 布 . 





角度 投向 X 轴 
。 密度 函数 : 

















下 


ib [i (| 
与 方差 不 存在 . 





f(zla, db) = 





。 数字 特征 : 均值 














aw<b. 

















# 振 行为 . 以 一 随机 的 

















0<z<1 (a,b>0). 


























f(xla,b) = abro -ler, 


| 的 寿命 分 布 , 用 来 刻 划 深 珠 轴 











承 、 电 子 元 器 件 等 产品 











>0 (a,b> 0). 





T(1+i 
。 数 字 特 征 ; E(X) = 世 直 引 ， 
Ry ME 
Var(X)= 37 2 a . 


。 特例 : 5 = 1 时 的 分 布 为 指数 分 布 . 


3.3 概率 分 布 .87. 





5) 指数 分 布 : exp( 入 ) 
白松 过 程 的 等 待 时 间 服 从 指数 分 布 . 形状 参数 b = 








。 意义 : 让 
1 的 Weibull 分 布 为 指数 分 布 . 
。 密度 函数 : 
f(z|N) = Xe ””, >0 (A>0). 


。 数字 特征 : E(X) = 二 ,Var(X) = 十 . 
6) 瑞 利 (Rayleigh) 分 布 : ray1(b) 
。 意义 : 瑞 利 (Rayleigh) 分 布 为 Weibul 分 布 的 又 一 个 特例 : 它 是 参数 
为 (1/(202),2) 的 Weibull 分 布 . 
。 密度 函数 : 
(el) = exp (- 押 ) 
。 数字 特征 : E(X) = V30, Var(X) = 与 二 太 ， 


7) 正 态 分 布 /高 斯 分 布 : norm(1,o?) 
。 意义 : 高 斯 分 布 是 概率 论 与 数理 统计 中 最 重要 的 一 个 分 布 . 中 心 极限 
定理 表明 , 一 个 变量 如 果 是 由 大 量 微小 的 、 独 立 的 随机 因素 的 登 加 
结果 , 那么 这 个 变量 一 定 是 正 态 变量 . 因此 许多 随机 变量 可 以 用 高 
斯 分 布 表述 或 近似 描述 .. 
。 密度 函数 : 





































































































_ (2-4)? 
f(x,o) = se Ee ， <7X<o%, 
(0 <h<%,o>0) 





。 数字 特征 : E(X) = ,Var(X) = 02. 


8) 对 数 正 态 分 布 : 1norm(4, a2) 
。 意 义 : In(X) 服 从 参数 为 (J,07) 的 正 态 分 布 , 则 和服 从 参数 为 (us c2) 的 
对 数 正 态 分 布 . 
。 密度 函数 : 





_ (ln(z) 一 上 2 
j(zllo) = He 2 , 2>0 


(~ <h<%,o>0) 
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。 数字 特征 : E(X) = exp { + 30?},Var(X) = ec (er” — 1)e2n. 


9) 逆 正 态 分 布 : inorm(1, 入 ) 





意义 : 正 态 随机 变量 的 倒数 服从 的 分 布 . 
。 密度 函数 : 


有 A(z -用 


。 数 字 特 征 : E(X) = ,Var(X) = 今 . 





10) 珈 玛 分 布 : gamma(a, 5) 


。 意义 :个 相互 独立 的 参数 为 1/6 的 指数 分 布 的 和 服从 参数 为 (k, 0) 的 
珈 玛 分 布 . 
。 密度 函数 : 


1 
f(zla,b) = Ta” >0 (a>0,5> 0). 
a 


。 数字 特征 : E(X) = ab, Var(X) = ab?. 
。 特例 : a = 1 时 的 分 布 为 指数 分 布 ; a = 3,5 = 2 时 的 分 布 为 卡 方 分 布 . 
11) 逆 珈 玛 分 布 : igamma(a, 5b) 


。 意义 : 珈 玛 分 布 随机 变量 的 倒数 服从 逆 珈 玛 分 布 . 
e 密度 函数 : 





业 


Fala,b) = 到 


zath) eo-1/(be) >0 (a> 0,b> 0). 


® 数字 特征 : E(X) 一 ee > 1), Var(X) 一 aa (0 > 2). 
。 a 二 39,0 = 2 的 分 布 为 道 卡 方 分 布 . 
12) 卡 方 (Xx) 分 布 : chisq(n) 

















。 意义 : n 个 独立 正 态 随机 变量 的 平方 和 服从 自由 度 为 n 的 卡 方 分 布 . 
。 密度 函数 : 























TXT2/2 一 Le 一 Z/2 


f(zx|n) = B77 RD)’ 2 > 0. 


3.3 概率 分 布 .89 . 





e 数字 特征 : E(X) = mw Var(X) =2n (n> 2). 


13) 逆 卡 方 分 布 : ichisq(m) 





意义 : 卡 方 分 布 随机 变量 的 倒数 服从 逆 卡 方 分 布 . 


一 (2/2+1)e 一 1/27 


i 


2 > (0. 
n—2 


14) tt 分 布 : t(n) 


























。 意义 : 随机 变量 XX 与 YY 独立， X 服 从 标准 正 态 分 布 , 了 服从 自由 度 
为 m 卡 方 分 布 , 则 T = -全 二 服从 自由 度 为 7 的 1 分 布 . 















































VY 
e 密度 函数 : 
四 一 (十 1)/2 
f(z|n) = ( + 
Bl ) 


。 数字 特 征 : E(X) = 0,Var(X)= -2 (n> 2). 


15) F 分 布 : f(n,m) 











。 意义 : 随机 变量 XX 与 Y 独 立 , 匀 服 从 自由 度 为 n 卡 方 分 布 ,Y 服 从 自 1 
度 为 m 卡 方 分 布 , 则 T = 3 名 服从 自由 度 为 (n,m) 的 下 分 布 . 
。 密度 函数 : 
































2 风 
。 数字 特征 : E(X) = ,2 (m > 2),Var(X) = 2 CR 


2). 
16) logistic 分 布 : logis(a, 0b) 


。 意义 : 生态 学 中 的 增长 模型 常用 logistic 分 布 来 刻 划 , 它 也 常用 
于 logistic 回 归 中 . 











—1 


f(zla,b) = [1+ ee 9)/] 
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e。 数字 特征 : E(X) = a,Var(X)= 三 


17) Dirichlet 分 布 : Dirichlet(Qai1,:…: ,Qax) 

















意义 : 在 贝 叶 斯 分 析 中 可 作为 多 项 分 布 参 数 的 共 轿 分 布 . Dirichlet 分 
布 的 密度 函数 表示 在 已 知 k 个 竞争 事件 已 经 出 现 了 a; 一 1 次 条 件 下 ， 
它们 出 现 的 概率 为 zi,i = 1,2,… ,有 的 信念 














jz ,Tir|Q) = Ba Bl rl 7z;>0, ed (ai > 0)， 


《三 工 


其 中 B(a) Tis LT(as) 














1(25 0 
。 数 字 特 征 : E(X) = Var(X) = 机 
0 
Qi0Qi k 
Cov(Xi, X;) 一 to 十 1 其 ! CQ0 一 DD Qi 


e。 二 2 为 贝塔 分 布 . 
18) Pareto 分 布 : pd(a, 5) 


。 意义 : 财富 的 分 配 的 规则 ( 称 为 Pareto 规 则 ) 是 大 部 分 的 财富 (80%) 被 
少数 人 (20%) 的 人 拥有 , 这 可 以 较 好 地 用 Pareto 分 布 来 刻 划 . 
。 密度 函数 : 
































falod) = 2 (2) rz>a (b>0). 


。 数字 特征 : E(X) = 总 (b>1),Var(X)= Ss (b>2). 








19) 非 中 心 分 布 . 与 前 面 卡 方 分 布 、t 分 布 和 F 分 布 相对 应 还 有 三 个 非 中 心 的 
分 布 : 








e 非 中 心 ee 一 ”chisq(n,1): n 个 独立 正 态 随机 变 
量 N(j,0? ) i = …,n 的 平方 和 服从 自由 度 为 %、 非 中 心 参 
数 为 = 42 ee } 布 . 


. a t(n,1): 随机 变量 XX 与 Y 独 立 , 和 服从 标准 正 态 

分 布 , 了 服从 自由 度 为 mn 卡 方 分 布 , 则 7T = -2 服 从 自 | 度 为 n、 非 
/n 

中 心 参数 为 4 的 {分 布 















































3.4 R 中 内 赂 的 分 布 .91 . 











。 非 中 心 的 F 分 布 ，F(n, mu 各: 随机 变量 X 与 Y 独 立 , X 服 从 自由 度 
为 mn、 非 中 心 参数 为 /的 非 中 心 卡 方 分 布 , 了 服从 自由 度 为 m 卡 方 分 
布 , 则 T = 名 服从 自由 度 为 (n,mn)、 非 中 心 参数 为 的 分 布 


若 无 特别 申明 , 通常 所 说 的 卡 方 分 布 、t 分 布 和 F 分 布 都 是 中 心 的 卡 方 分 
布 、t 分 布 和 F 分 布 . 








































































































83.4 及 中 内 藤 的 分 布 


及 提供 了 四 类 有 关 统 计 分 布 的 函数 : 密度 函数 、( 累 积 ) 分 布 函数 、 分 位 数 
函数 、 随 机 数 函数 . 它们 都 与 分 布 的 英文 名 称 (或 者 其 缩写 ) 相 对 应 . 下 表 按 英 
文字 母 顺序 列 出 了 及 中 提供 了 18 个 分 布 的 英文 名 称 、 及 中 的 名 称 和 函数 中 的 选项 : 


















































分 布 名 称 及 名 称 选项 

beta beta shape1, shape2 
binomial binom size, prob 

Cauchy cauchy location=0, scale=1 
chi-sqaured (X2) chisq df, ncp 

exponential exp rate 

Fisher-Snedecor (F) 于 df1, df2, ncp 
gamma gamma shape, scale=1 
geometric geom prob 

hypergeometric hyper m, n, k 

lognormal lnorm meanlog=0, sdlog=1 
logistic logis location=0, scale=1 
multinomial multinom size, prob 

normal norm mean=0,，sd=1 
negative binomial nbinom size, prob 

Poisson pois lambda 

Student’s (如 t df 

uniform unif min=0, max=1 

Weibull weibull shape, scale=1 
Wilcoxon’s statistics wilcox m, n 


signrank 1n 


. 92 ， 第 三 章 ”概率 与 分 布 








对 于 所 给 的 分 布 名称 ， 加 前 级 “d”( 代 表 密 度 函 数 , density) 就 得 到 及 的 密度 
函数 (对 于 离散 分 布 , 指 分 布 律 ); 加 前 级 “p”( 代 表 分 布 函 数 或 概率 , CDF) 就 
得 到 RR 的 分 布 函数 ; 加 前 级 “q”( 代 表 分 位 函数 , quantile) 就 得 到 及 的 分 位 数 
函数 ; 加 前 级 “r”( 代 表 随 机 模拟 , random) 就 得 到 及 的 随机 数 发 生 函 数 ， 而 
且 这 四 类 函数 的 第 一 个 参数 是 有 规律 的 : 形 为 dfunc 的 函数 为 z，pfunc 的 函数 
为 g，qfunc 的 函数 为 p, rfunc 的 函数 为 n (但 rhyper 和 rwilcox 是 特例 ,他 们 的 第 
一 个 参数 为 nn). 目前 为 止 , 非 中 心 参 数 (non-centrality parameter) 仅 对 CDF 和 
少数 其 它 儿 个 函数 有 效 , 细节 请 参考 在 线 帮助 . 


若 民 中 分 布 的 函数 名 为 func, 则 四 类 函数 的 调用 格式 为 : 













































































1) 概率 密度 函数 : dfunc(x，p1，p2，.. .), x 为 数值 向 量 ; 

2) (累积 ) 分 布 函 数 : pfunc(q，p1，p2，...), q 为 数值 向 量 ; 

3) 分 位 数 函 数 : qfunc(p，p1l1，p2，...), p 为 由 概率 构成 的 向 量 ; 
4) 随机 数 函数 : rfunc(n，pl1，p2，...), n 为 生成 数据 的 个 数 


















































其 中 pl, p2, ... 是 分 布 的 参数 值 . 上 面 的 表格 中 有 具体 数值 的 是 这 些 参数 在 空 
缺 时 对 应 的 缺 省 值 . 
所 有 pfunc 和 qfunc 的 函数 都 具有 逻辑 参数 lower.tail 和 log.p， 而 所 有 
的 dfunc 函 数 都 有 参数 1og. 此 外 ,对 于 来 自 正 态 分 布 , 具有 学 生化 样本 区 间 的 
分 布 还 有 ptukey 和 qtukey 这 样 的 函数 . 
最 后 通过 二 个 例子 简单 说 明 一 下 它们 的 作用 : 




















































































































1) 查找 分 布 的 分 位 数 , 用 于 计算 假设 检验 中 分 布 的 临界 值 或 置信 区 间 的 置 
信 限 . 例如 ， 显著 性 水 平 为 5% 的 正 态 分 布 的 双 侧 临界 值 是 : 











工 






































> qnorm(0.025) 
[1] -1.959964 
> qnorm(0.975) 
[1] 1.959964 














2) 计算 假设 检验 的 p 值 . 比如 

















度 df = 1 的 x? = 3.84 时 的 x 检验 的 p 值 为 




















> 1 - pchisq(3.84, 1) 
[1] 0.05004352 





3.5 应 用 : 中 心 极限 定理 . 93 . 





而 容量 为 14 的 双边 t 检 验 的 p 值 为 


> 2*pt(-2.43, df = 13) 
[1] 0.0303309 





这 些 函数 将 在 以 后 的 章节 中 发 挥 极 大 的 作用 . 














83.5 ”应 用 : 中 心 极 限定 理 


3.5.1 ”中 心 极 限定 理 











正 态 分 布 在 概率 统计 中 起 着 至 关 重要 的 作用 , 其 中 的 一 个 原因 是 当 独 立 观 
察 (试验 ) 的 样本 容量 n 足 够 大 时 , 那么 所 观察 的 随机 变量 X1, X2,…. ,XX 的 和 近 
似 服 从 正 态 分 布 (假定 B(X;) = 1,Var(Xi) = o? 存 在 ), 即 

>i 


ee 1 









































2 
R= NG, ) (no0) 
nN 2 


3.5.2 ” 渐 近 正 态 性 的 图 形 检验 























下 面 的 函数 给 出 了 从 图 形 上 考查 一 个 由 (R 中 已 经 提供 的 或 自己 定义 的 ) 已 






































知 分 布 产生 的 容量 为 n 的 样本 (可 以 为 向 量 ) 经 标准 化 变换 后 趋 于 标准 正 态 分 布 
的 近似 程度 . 


















































limite.central( ) 的 定义 
limite.central <- function (r=runif, distpar=c(0,1), m=.5, 
s=1/sqrt (12), 
n=c(1,3,10,30), N=1000) { 
for (i in n) { 
if (length(distpar)==2){ 
X <- matrix(r(i*N, distpar[1] ,distpar[2]) ,nc=i) 
} 
else { 
X <- matrix(r(i*N, distpar), nc=i) 


} 
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x <- (apply(x, 1, sum) - i*m )/(sqrt(i)*s) 
hist(x,col=’light blue’ ,probability=T,main=paste("n=",i), 
ylim=c(0,max(.4, density(x)$y))) 
lines(density(x), col=’red’, lwd=3) 
curve(dnorm(x), col=’blue’, lwd=3, lty=3, add=T) 
if( N>100 ) + 
rug(sample (x,100)) 
} 
else { 
rug(x) 





此 函数 的 缺 省 值 为 : 


1) 分 布 为 [0,1]| 上 的 均匀 分 布 , 否则 用 选项 r= 声明 ; 








2) 分 布 的 均值 为 0.5, 否则 用 选项 m= 声明 ; 

















3) 分 布 的 标准 差 为 /V12, 否则 用 选项 s= 声 明 ; 


羊 本 容量 有 4 个 : 1，3，10 ，30, 否则 用 选项 n= 声明 ; 


心 
六 -一 
人 








重复 次 数 为 1000, 否则 用 选项 N= 声明 . 





Ol 
[hill 











对 于 程序 作 一 简单 说 明 : 











1) hist (x，...) 用 于 作出 z 的 直方 图 ; 

















2) lines (density(x),...) 计 算 z 的 核 密度 估计 值 ( 窗 宽 为 bw=1), 并 连接 
成 线 ; 


3) curve(dnorm(x) ，...) 计 算 z 处 标准 正 态 分 布 的 密度 函数 值 , 并 连接 成 
线 ; 


4) rug(x) 在 横 坐 标 处 用 小 的 竖 线 夯 出 x 出 现 的 位 置 . 









































有 关 的 其 它 参数 , 参见 第 二 章 的 说 明 或 通过 R 关 于 这 些 函 数 的 帮助 . 如 果 将 程 
序 中 的 z 改 为 样本 的 标准 化 值 , 就 可 检验 一 般 样本 的 渐 近 正 态 性 . 














也 





3.5 应 用 : 中 心 极限 定理 


.95 . 





3.5.3 ”举例 
二 项 分 布 : b(10,0.1) 
op <- par(mfrow=c(2,2)) 


limite.central(rbinom, distpar=c(10 ,0.1), m=1, s=0.9) 
par (op) 


得 到 图 3.1. 


| n= 3 





Density 
Density 
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3.1 二 项 分 布 的 渐 近 正 态 性 . 











泊 松 分 布 : pios(1) 
op <- par(mfrow=c(2,2)) 


limite.central (rpois, distpar=1, m=1, s=1, n=c(3, 10, 30 


par (op) 


得 到 图 3.2. 


,50)) 
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图 3.2” 泊 松 分 布 的 渐 近 正 态 性 . 











均匀 分 布 : unif(0,1) 


op <- par (mfrow=c(2,2)) 
limite.central( ) 


par (op) 
得 到 图 3.3. 
指数 分 布 : exp(1) 


op <- par (mfrow=c(2,2)) 
limite.central (rexp, distpar=1, m=1, s=1) 


par (op) 
得 到 图 3.4. 
正 态 混合 分 布 : 3norm( 一 3,1) 十 inorm(3, 1) 


op <- par(mfrow=c(2,2)) 


3.5 应 用 : 中 心 极限 定理 
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3.3 均匀 分 布 的 渐 近 正 态 性 . 
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3.4 指数 分 布 的 渐 近 正 态 性 . 
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mixn <- function (n, a=-1, b=1) 

{rnorm(n, sample(c(a,b),n,replace=T))} 
limite.central (r=mixn, distpar=c(-3,3), 

m=0, s=sqrt(10), n=c(1,2,3,10)) 
















































































par (op) 
三 /7 
得 到 图 3.5. 
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图 3.5 混合 正 态 分 布 的 渐 近 正 态 性 . 





3.5 应 用 : 中 心 极限 定理 








第 三 章 习 题 


3.1 ”从 1 到 100 个 自然 数 中 随机 不 放 回 地 抽取 5 个 数 , 并 求 它 们 的 和 
3.2 ”从 一 副 扑 死 牌 (52 张 ) 中 随机 抽 5 张 , 求 下列 概 率 

















e。 抽 到 的 是 10、J、Q、K、A; 


。 抽 到 的 是 同花顺 . 
3.3 ”从 正 态 分 布 N(100,100) 中 随机 产生 1000 个 随机 数 ， 














。 作出 这 1000 个 正 态 随机 数 的 直方 图 ; 








e 从 这 1000 个 随机 数 中 随机 有 放 回 地 抽取 500 个 , 作出 其 直方 图 ; 




















。 比较 它们 的 样本 均值 与 样本 方差 . 


3.4 ”模拟 随机 游 动 : 从 标准 
数 cumsum( ) 作 出 累积 和 , 最 后 使 
3.5 ”从 标准 正 态 分 布 9 










































































的 95% 置 信 区 间 , 3 
3.6 “用 本 章 给 出 的 函数 limite.central( ), 从 图 
大 时 , 从 贝塔 分 布 Beta(1/2,1/2) 提 
3.7 ” 除 本 章 给 出 的 标准 分 布 外 ， 
散 化 方法 实现 . 设 p(x) 为 X 的 密度 











1) 在 了 的 取 值 范围 内 等 间隔 地 选取 NN 个 点 z1, x2,.…. 














与 理 

















论 值 进行 比较 . 











形 











E 正 态 分 布 中 产生 1000 个 随机 数 ， 并 
命令 plot ( ) 作出 随机 游 动 的 示意 图 
FP 随机 产生 100 个 随机 数 ， 




















此 数据 求 总 体 


























均值 
































上 验证 当 样 本 容量 足够 




















| 取 的 样本 的 样本 均值 近似 
非 标 准 的 随机 变量 的 


















































2) 计算 p(xi),i = 1,2,...,N; 








函数 , 其 抽样 步骤 如 下 


服从 正 态 分 布 . 
| 样 可 通过 格式 点 离 


,ZN, 例如 取 N = 1000; 


3) 正则 化 p(zi),i = 1,2,.….,NN, 使 其 成 为 离散 的 分 布 律 , 即 每 一 项 除 


>» p(xi) 
4) 按 离 散 分 布 抽 档 
取 n 个 数 , 例如 m = 1000. 


试 以 标准 正 态 分 布 为 例 来 说 明 . 为 与 及， 
将 作 图 区 域 分 为 左右 两 部 分 ， 


























方法 使 用 命令 sample( ) 从 zi,i = 1,2,...,N 有 放 回 地 抽 


的 正 态 抽样 函数 rnorm( ) 进 行 比较 ， 
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。 使 用 rnorm( ) 抽 取 n = 1000 个 标准 正 态 随 机 数 , 并 在 左 侧 区 域 画 出 相应 
的 直方 图 和 核 密 度 估 计 曲 线 ; 


e。 用 格子 点 离散 化 抽样 方法 完成 抽样 , 并 在 右 侧 区 域 画 出 相应 的 直方 图 和 
核 密度 估计 曲线 , 离散 化 所 用 的 N = 1000, n = 1000, 取 点 范围 为 [一 4, 4 



















































































第 四 章 ”探索 性 数据 分 析 


本 章 概要 
4 探索 性 数据 分 析 的 思想 
4 分 布 的 图 形 概括 
人 单 组 数据 的 描述 性 统计 分 析 
4 多 组 数据 的 描述 性 统计 分 析 
4 分 组 数据 的 描述 性 统计 分 析 
4 分 类 数据 的 描述 性 统计 分 析 





小 



































































































































数据 的 统计 分 析 分 为 描述 性 统计 分 析 和 统计 推断 两 部 分 , 前 者 又 称 为 探索 
性 统计 分 析 , 它 是 通过 绘制 统计 图 形 、 编制 统计 表格 、 计 算 统 计量 等 方法 来 探 
索 数据 的 主要 分 布 特征 , 揭示 其 中 存在 的 规律 . 探索 性 数据 分 析 是 进行 后 期 统 
计 推 断 的 基础 . 本 章 针对 不 同类 型 的 数据 通过 及 介绍 探索 性 数据 分 析 技 巧 ， 分 
别 从 图 形 和 描述 性 统计 量 (包括 样本 的 均值 、 标 准 差 、 分 位 数 、 侦 度 、 峰 度 等 统 
计量 ) 刻 划 样 本 的 特征 . 






















































































































































































84.1 ”常用 分 布 的 概率 函数 图 


解 总 体 分 布 的 形态 , 有 助 于 把 握 样本 的 基本 特征 . 我 们 先 通 过 具体 的 例 
第 三 章 中 提 到 的 一 些 常用 分 布 的 概率 函数 (对 于 离散 分 布 指 分 布 律 ,对 
于 连续 分 布 指 其 密度 函数 ) 的 图 形 . 
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> b<=0.,.2 
> k<-seq(0,n) 


> plot(k,dbinom(k,n,p) ,type='h', 


main='Binomial distribution, n=20, p=0.2',xlab='k') 


得 到 图 4.1. 


Binomial distribution, n=20, p=0.2 
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图 4.1 





tm 


泊 松 分 布 


> lambda<-4.0 
> k<-seq(0,20) 


> plot(k,dpois(k,1lambda) ,type='h', 


二 项 分 布 的 分 布 律 图 


dpois(k, lambda) 


Poisson distribution, lambda=5.5 
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图 4.2” 泊 松 分 布 的 分 布 律 图 





main='Poisson distribution, lambda=5.5',xlab='k') 


得 到 图 4.2. 


几何 分 布 


> p<-0.5 
> k<-seq(0,10) 
> plot(k,dgeom(k,p) ,type='h', 


main='Geometric distribution, p=0.5',xlab='k') 























4.1 常用 分 布 的 概率 函数 图 . 103 . 
得 到 图 4.3. 
Geometric distribution, p=0.5 Hypereometric distribution, N=30, M=10, n=10 

3 | | | 8 1 

图 4.3 ”几何 分 布 的 分 布 律 图 图 4.4 超 几 何 分 布 分 布 的 分 布 律 图 
超 几 何 分 布 
> N<-30 
> M<-10 
> n<-10 
> k<-seq(0,10) 
> plot(k,dqdhyper(K,N,M,n) ,type='h', 


main='Hypergeometric distribution， 
N=30, M=10,n=10',xlab='k') 


得 到 图 4.4. 


负 二 项 分 布 


> n<-10 


> p<-0.5 


> k<-seq(0,40) 
> plot(kK，dnbinom(k,n,p)，type='' ， 





























main='Negative Binomial distribution, 


n=10, p=0.5',xlab='k') 






















































































得 到 图 4.5. 
Gaussian distributions 
Negative Binomial distribution, n=10, p=0.5 因 i 
二 see 
: a 
§ 5 
8 s 
和 T . 和 T T T T T 
0 10 20 30 40 4 Ee: 0 2 4 
k x 
图 4.5” 负 二 项 分 布 的 分 布 律 图 。 图 4.6 正 态 分 布 的 密度 函数 图 
正 态 分 布 
> curve(dnorm(x,0,1), xlim=c(-5,5), ylim=c(0,.8), 


col='red', lwd=2, lty=3) 
curve(dnorm(x,0,2), add=T, col='blue', lwd=2, lty=2) 
curve(dnorm(x,0,1/2), add=T, lwd=2, lty=1) 


title(main="Gaussian distributions") 


V YY YY 


legend(par('usr') [2], par('usr') [4] ，xjust=1， 
cl('sigma=1', 'sigma=2', 'sigma=1/2'), 
lwd=c (2,2,2), 
lty=c(3,2,1), 
col=c('red', 'blue', par("fg"))) 


得 到 图 4.6. 
t 分 布 
> curve(dt (x,1), xlim=c(-3,3), ylim=c(0,.4), 


col='red', lwd=2, lty=1) 
> curve(dt(x,2), add=T, col='green', lwd=2, lty=2) 





4.1 常用 分 布 的 概率 函数 图 . 105 . 





> curve(dt(x,10), add=T, col='orange', lwd=2, lty=3) 
> curve(dnorm(x), add=T, lwd=3, lty=4) 
> title(main="Student T distributions") 
> legend(par('usr') [2], par('usr') [4] ，xjust=1， 
cl('df=1', 'df=2', 'df=10', 'Gaussian distribution'), 
lwd=c (2,2,2,2), 
lty=c(1,2,3,4), 
col=c('red', 'blue', 'green', par("fg"))) 


得 到 图 4.7. 
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图 4.7 t 分 布 的 密度 函数 图 图 4.8 X2 分 布 的 密度 函数 图 


X2 分 布 


curve(dchisq(x,1), xlim=c(0,10), ylim=c(0,.6), col='red', lwd=2) 
curve(dchisq(x,2), add=T, col='green', lwd=2) 
curve(dchisq(x,3), add=T, col='blue', lwd=2) 

curve(dchisq(x,5), add=T, col='orange', lwd=2) 
abline(h=0,1ty=3) 

abline (v=0,1ty=3) 


title(main='Chi square Distributions') 


EW WW A YY 


legend(par('usr') [2] , par('usr') [4] ，xjust=1， 
cl('df=1', 'df=2', 'df=3', 'df=5'), 
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lwd=3, lty=1,， 
col=c('red', 'green', 'blue', 'orange') 


) 
得 到 图 4.8. 
F 分 布 


> curve(df(x,1,1), xlim=c(0,2), ylim=c(0,.8), lty=1) 
> curve(df (x,3,1), add=T, lwd=2,1ty=2) 
> curve(df (x,6,1), add=T, lwd=2, lty=3) 
> curve(df (x,3,3), add=T, col='red', lwd=3,1ty=4) 
> curve(df (x,3,6), add=T, col='blue', lwd=3,1ty=5) 
> title(main="Fisher's F") 
> legend(par('usr') [2] par('usr') [4], xjust=1, 
cl'df=(1,1)', 'df=(3,1)', 'df=(6,1)', 

'df=(3,3)', 'df=(3,6)'), 

lwd=c(1,2,2,3,3), 

lty=c(1,2,3,4,5), 

col=c(par("fg"), par("fg"), par("fg"), 'red', 'blue')) 


得 到 图 4.9. 
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Log normal distributions 
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图 4.9 了 分 布 的 密度 函数 图 图 4.10 ”对 数 正 态 分 布 的 密度 函数 图 























4.1 常用 分 布 的 概率 函数 图 . 107 . 





对 数 正 态 分 布 

> curve(dlnorm(x), xlim=c(-.2,5), ylim=c(0,1.0), lwd=2) 

> curve(dlnorm(x,0,3/2), add=T, col='blue', lwd=2, lty=2) 

> curve(dlnorm(x,0,1/2), add=T, col='orange', lwd=2, lty=3) 
> title(main="Log normal distributions") 

> legend(par('usr') [2] par('usr') [4], xjust=1, 


cl('sigma=1', 'sigma=2', 'sigma=1/2'), 
lwd=c (2,2,2), 
lty=c(1,2,3), 
col=c(par("fg"), 'blue', 'orange' )) 


得 到 图 4.10. 


柯 西 分 布 


> curve(dcauchy (x) ,xlim=c(-5,5), ylim=c(0,.5), lwd=3) 
> curve(dnorm(x), add=T, col='red', lty=2) 
> legend(par('usr') [2], par('usr') [4] ，xjust=1， 
cl('Cauchy distribution', 'Gaussian distribution') ， 
lwd=c (3,1),， 
lty=c(1 ,2), 
col=c(par("fg"), 'red')) 


得 到 图 4.11. 


威 布尔 分 布 

> curve(dexp(x), xlim=c(0,3), ylim=c(0,2)) 

> curve(dweibull(x,1), lty=3, lwd=3, add=T) 

> curve(dweibull (x,2), col='red', add=T) 

> curve(dweibull(x,.8), col='blue', add=T) 

> title(main="Weibull Probability Distribution Function") 
> legend(par('usr') [2] par('usr') [4] ，xjust=1， 


c('Exponential', 'Weibull, shape=1', 
'Weibull, shape=2', 'Weibull, shape=.8'), 
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Cauchy distribution ‘Weibull Probability Distribution Function 








2 一 Cauchy distribution 二 一 Exponential 
--- Gaussian distribution | ++. Weibull, shape=1 








一 Weibull shape=2 
一 Weibull shape=.8| 






































而 





4.12 威 布尔 分 布 的 密度 函数 图 





图 4.11 柯 西 分 布 的 密度 函数 图 











lwd=c(1,3,1,1), 
lty=c(1,3,1,1), 
col=c(par("fg"), par("fg"), 'red', 'blue')) 





得 到 图 4.12. 


珈 码 分 布 


curve( dgamma(x,1,1), xlim=c(0,5), lwd=2, lty=1 ) 

curve( dgamma(x,2,1), add=T, col='red', lwd=2, lty=2 ) 
curve( dgamma(x,3,1), add=T, col='green', lwd=2, lty=3 ) 
curve( dgamma(x,4,1), add=T, col='blue', lwd=2, lty=4 ) 
curve( dgamma(x,5,1), add=T, col='orange', lwd=2, lty=5 ) 


title(main="Gamma distributions") 


NN WW -YY 


legend(par('usr') [2] , par('usr') [4] , xjust=1, 
c('k=1 (Exponential distribution)', 
‘k=2!, 'k=3!,'k=4!, ‘k=5') ， 
lwd=c(2,2,2,2,2), 
lty=c(1,2,3,4,5), 


col=c(par('fg'), 'red', 'green', 'blue', 'orange') ) 


得 到 图 4.13. 





4.1 常用 分 布 的 概率 函数 图 . 109. 





Gamma distributions Beta distribution 








1.0 











0.8 





0.6 


dgamma(x, 1, 1) 
0.4 








0.2 











0.0 























4.13 ” 珈 码 分 布 的 密度 函数 图 图 4.14 ”贝塔 分 布 的 密度 函数 图 








贝塔 分 布 

> Curve( dbeta(x,1,1), xlim=c(0,1), ylim=c(0,4) ) 

> curve( dbeta(x,3,1), add=T, col='green' ) 

> curve( dbeta(x,3,2), add=T, lty=2, lwd=2 ) 

> curve( dbeta(x,4,2), add=T, lty=2, lwd=2, col='blue' ) 

> curve( dbeta(x,2,3), add=T, lty=3, lwd=3, col='red' ) 

> curve( dbeta(x,4,3), add=T, lty=3, lwd=3, col='orange' ) 
> title(main="Beta distributions") 

> legend(par('usr') [1] par('usr') [4], xjust=0, 


cCO'(1,1)', '(3,1)', '(3,2)', 

4,2)", (253)", "(4,3)" 7), 
lwd=c(1,1，2,2，3,3) ， 
lty=c(1,1，2,2，3,3) ， 
col=c(par('fg'), 'green', par('fg'), 


'blue', 'red', 'orange' )) 


得 到 图 4.14. 
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$4.2 ”直方 图 与 密度 函数 的 估计 


4.2.1 ”直方 图 




















直方 图 是 探索 性 数据 分 析 的 基本 工具 , 它 给 出 了 数据 的 频率 分 布 图 形 , 在 
组 距 相 等 场合 下 常用 宽度 相等 的 长 条 和 矩形 表示 , 和 矩形 的 高 低 表 示 频 率 的 大 小 . 
在 图 形 上 , 横 坐 标 表 示 所 关心 变量 的 取 值 区 间 , 纵 坐 标 表示 频率 (或 频数 ) 的 大 
小 , 这 样 就 得 到 频数 (或 频数 ) 直 方 图 . 图 形 的 形状 与 我 们 选择 的 各 组 区 间 端 点 
有 关 ， 故 选择 区 间 端 点 时 我 们 要 谨慎 . 
及 中 使 用 函数 hist( ) 来 画 直 方 图 , 其 常用 的 调用 格式 如 下 : 















































































































































hist( ) 的 调用 格式 
hist(x, breaks = "Sturges", freq = NULL, probability = !freq, 
col = NULL, 





main = paste("Histogram of" , xname), 


xlim = range(breaks), ylim = NULL, 


xlab = xname, ylab, 
axes = TRUE, nclass = NULL) 








说 明 : 耕 选项 breaks 取 疝 量 , 则 用 于 指明 直方 图 区 间 的 分 割 位 置 ; 者 取 正 整 数 ， 
则 用 于 指定 直方 图 的 小 区 间 数 . freq 取 T 表 示 使 用 频数 画 直 方 图 , 取 F 则 使 用 频 
率 画 直方 图 . probability 与 freq 恰 好 相反 . col 用 于 指明 小 矩形 的 颜色 . 其 它 
选项 可 参考 hist( ) 的 帮助 说 明 . 后 面 我 们 还 将 给 出 hist( ) 的 二 种 拓展 . 






























































4.2.2 ” 核 密度 估计 


样本 的 直方 图 粗略 地 描述 了 样本 的 分 布 , 我 们 还 可 以 用 函数 density( 
) 得 到 样本 的 核 密 度 佑 计 值 并 用 lines( ) 得 到 密度 估计 的 曲线 . density( 
) 常 用 的 调用 格式 如 下 : 










































































density( ) 的 调用 格式 















density(x, bw = "nrd0", 
kernel = c("gaussian", "epanechnikov", "rectangular", 
"triangular", "biweight", "cosine", "optcosine'"), 


n = 512, from, to) 





说 明 : 选项 bw 指定 核 密度 估计 的 窗 宽 , 也 用 字符 串 表示 窗 宽 选择 规则 , 基体 可 
参考 函数 bw .nrd( ). kernel1 为 核 密度 估计 所 使 用 的 光滑 化 函数 , 缺 省 为 正 态 























4.2 直方 图 与 密度 函数 的 估计 . 111 . 





核 函 数 . n 给 出 等 间隔 的 核 密度 估计 点 . from 与 to 分 别 给 出 需要 计算 核 密度 估 
计 的 左右 端点 . 其 它 选项 可 参考 density( ) 的 在 线 帮助 1. 

下 面 看 两 个 模拟 例子 . 

例 4.2.1 ”从 二 项 分 布 binom(100,0.9) 中 抽取 容量 为 N=100000 的 样本 . 
试 作出 它 的 直方 图 及 核 密度 估计 曲线 . 









































N <- 100000 
n <- 100 
P <= .9 


x <- rbinom(N,n,p) 


hist (x, 


V VvV VvV Vv YY 


xlim=c (min(x) ,max(x)), probability=T, 
nclass=max(x)-min(x)+1, col='lightblue', 
main='Binomial distribution, n=100, p=.5') 


> lines(density(x,bw=1), col='red', lwd=3) 


得 到 图 4.16. 


Binomial distribution, n=100, p=.5 Negative binomial distribution, n=10, p=.25 
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图 4.15 二 项 分 布 的 样本 的 直方 图 图 4.16 负 二 项 分 布 的 样本 的 直方 
与 核 密度 函数 图 图 与 核 密度 函数 图 























例 4.2.2 ”从 负 二 项 分 布 hbbinom(10,0.25) 中 抽取 容量 为 N=100000 的 样 
本 . 试 作出 它 的 直方 图 及 核 密度 估计 曲线 . 





























1 样本 的 密度 函数 估计 也 可 使 用 局 部 多 项 式 估计 程序 包 locfit 中 的 density.1f( ) 函 数 实现 
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>N<- 100000 

> x <- rnbinom(N, 10, .25) 

> hist (x, 
xlim=c (min(x) ,max(x)), probability=T, 
nclass=max(x)-min(x)+1, col='lightblue', 
main='Negative binomial distribution, n=10, p=.25') 


lines(density(x,bw=1), col='red', lwd=3) 


得 到 图 4.17. 


$4.3” 单 组 数据 的 描述 性 统计 分 析 


4.3.1 单 组 数据 的 图 形 描 述 











单 组 数据 的 分 布 可 以 通过 上 面 介 绍 的 直方 图 以 及 茎 叶 图 和 框 须 图 考查 . 

例 4.3.1 “程序 包 DAAG 中 有 内 欧 数 据 集 “possum”, 它 包 括 了 从 维 多 利 
亚 南 部 到 旺 后 区 的 七 个 地 区 的 104 只 负 鼠 (possum) 的 年 龄 、 尾 巴 的 长 度 、 总 长 
度 等 9 个 特征 值 ， 我 们 仅 考 虑 43 只 雌性 负 鼠 的 特征 值 ， 我 们 建立 子 集 fpossum， 
考查 雌性 负 鼠 (fpossum) 的 总 长 度 的 频率 分 布 . 
































































































































直方 图 


library (DAAG) 

data(possum) 

fpossum <- possum[possum$sex=="f",] 

par (mfrow=c(1,2)) 

attach(fpossum) 

hist(totlngth,breaks=72.5+(0:5)*5, 
ylim=c(0,22), xlab="total length", 
main="A:Breaks at 72.5,77.5...") 

hist(totlngth,breaks=75+(0:5)*5, 
ylim=c(0,22), xlab="total length", 
main="B:Breaks at 75,80...") 


V V VvV VvV Vv YYV 


Vv 





得 到 图 4.15. 两 个 图 的 唯一 不 同 之 处 是 选择 的 区 间 端 点 不 同 ,我 们 可 以 看 到 左 










































































4.3 单 组 数据 的 描述 性 统计 分 析 . 113. 
A:Breaks at 72.5,77.5... B:Breaks at 75,80... 
8 -] 8 -] 
时 | 
S Fy 
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= = | pp 
3 ©] 3 9 
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Fo | | 
75 80 85 90 95 75 80 85 90 95 100 
total length total length 
图 4.17 上 峻 性 负 鼠 的 直方 图 
边 的 图 不 对 称 ,而 右边 显示 该 分 布 是 对 称 的 . 
茎 时 图 
茎 叶 图 也 是 考查 数据 分 布 的 重要 方法 ,我 们 仍然 考虑 上 面 的 肉 性 负 女 的 总 














长 度 . 
> stem(fpossum$totlingth) 


得 到 








The decimal point is at the | 


74 | 0 

76 | 

78 | 

80 | 05 

82 | 0500 

84 | 05005 
86 | 05505 
88 | 0005500005555 
90 | 5550055 
92 | 000 

94 | 05 

96 | 5 
































说 明 : 左边 茎 是 长 度 (厘米 ) 的 整数 部 分 , 右边 是 小 数 点 后 边 的 部 分 , 由 于 数据 
采用 了 近似 , 所 以 右边 只 有 0 与 5, 显然 叶 的 部 分 是 左边 长 度 (厘米 ) 整 数 部 分 的 
频数 .图 中 有 43 个 的 数据 ,中 位 数 是 第 22 个 . 可 知 从 上 至 下 第 22 个 叶 对 应 的 茎 
是 88, 叶 是 5, 因此 样本 中 位 数 应 该 是 88.5. 茎 叶 图 的 外 观 很 像 横 放 的 直方 图 ,但 
茎 叶 图 中 的 叶 增 加 了 具体 的 数值 ,从 而 保留 了 数据 更 多 的 信息 . 


























































































































框 须 图 , 或 称 为 盒 形 图 , 是 五 数 (最 小 值 、 第 三 4 分 位 数 、 中 位 数 、 第 一 4 分 
位 数 、 最 大 值 ) 的 图 形 概括 , 也 是 考查 数据 分 析 的 一 种 有 效 的 工具 , 它 可 用 来 
对 数据 分 布 的 形状 进行 大 致 的 判断 ， 在 R 中 使 用 函数 boxplot( ) 作 盒 形 图 . 
boxplot( ) 的 调用 格式 如 下 : 
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boxplot( ) 的 调用 格式 


boxplot (formula, data = NULL, ..., subset, na.action = NULL) 











说 明 : formula 是 指明 盒 形 图 的 作 图 规则 (y ~ gp, 表 示 数 值 变量 y 根 据 因 




















子 grp 分 类 ), data 说 明 数 据 的 来 源 


> library (DAAG) 
> data(possum) 
> fpossum <- possum[possum$sex=="f",] 


> boxplot (fpossum$totlngth) 


4.3 是 








得 到 
































图 4.18. 箱子 中 的 五 根 横 线 对 应 的 坐标 分 别 是 最 小 值 ,第 一 4 分 位 数 ,， 


























三 4 分 位 数 和 最 大 值 . 





Normality Check via QQ Plot 





























Sample Quantiles 

















图 4.18 上 峻 性 负 鼠 的 框 须 图 图 4.19 雌性 负 鼠 的 QQ 图 


T T T T T 
-2 -1 0 1 


Theoretical Quantiles 








正 态 性 检验 


1) 








使 用 QQ 图 


> qqnorm(fpossum$totlngth, 
main="Normality Check via QQ Plot") 
> gqline(fpossum$totlngth, col='red') 








得 到 图 4.19. 图 4.19 表 明 数 据 与 正 态 性 略 有 差异 , 特别 在 图 形 的 中 部 . 


与 正 态 密度 函数 比较 


























> dens <- density(totlngth) 

> xlim <- range(dens$x); ylim<-range(dens$y) 

> par (mfrow=c(1,2)) 

> hist(totlngth,breaks=72.5+(0:5)*5, 
Xlim=xlim,ylim=ylim, 
probability=T, xlab="total length", 
main="A:Breaks at 72.5,77.5...") 

> lines(dens,col=par('fg') ,lty=2) 

> m <- mean(totlingth) 
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> s <- sd(totlngth) 

> curvel dnorm(x, m, s), col='red', add=T) 

> hist(totlngth,breaks=75+(0:5)*5, 
xlim=xlim,ylim=ylim, 
probability=T, xlab="total length", 
main="B:Breaks at 75,80...'") 

> lines(dens,col=par('fg') ,lty=2) 

> m <- mean(totlingth) 

> s <- sd(totlngth) 

> curve( dnorm(x, m, s), col='red', add=T) 





得 到 图 4.20. 图 4.20 表 明 数 据 totlngth 与 正 态 性 也 略 有 差异 . 进一步 需要 
使 用 统计 量 进行 正 态 性 检验 . 

















A:Breaks at 72.5,77.5... B:Breaks at 75,80... 
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4.20 ”上 肉 性 负 鼠 的 核 密度 与 正 态 分 布 的 比较 . 





3) 使 用 经 验 分 布 函数 





> x <- Sort(totlngthy) 
> n <- length(x) 
> y <- (i:n)/n 
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> m <- mean(totlngthy) 
> s <- sd(totlngth) 
> plot (x,y, type='s', main="empirical cdf of ") 


> curve(pnorm(x,m,s) ,col='red', lwd=2, add=T) 


得 到 图 4.21. 结论 与 前 面 类 似 . 


empirical cdf of 





























4.21 雌性 负 鼠 的 经 验 分 布 . 


4.3.2 ” 单 组 数据 的 描述 性 统计 











样本 来 自 总 体 , 样本 的 观测 值 中 含有 总 体 各 方面 的 信息 , 但 这 些 信息 较为 
分 散 , 有 时 显得 杂乱 无 章 . 为 将 这 些 分 散在 样本 中 的 有 关 总 体 的 信息 集中 起 来 
以 反映 总 体 的 各 种 特征 ,需要 对 样本 进行 加 工 得 到 统计 量 . 均值 、 标 准 差 、 五 
数 (最 小 值 、 第 三 4 分 位 数 、 中 位 数 、 第 一 4 分 位 数 、 最 大 值 ) 是 数据 的 主要 的 统 
计量 , 他 们 对 数据 的 进一步 分 析 很 有 帮助 . 

















































































































总 体 描 述 





在 及 中 ,函数 summary( ) 可 以 计算 出 单 组 数据 的 均值 和 五 数 . 仍然 用 上 一 
节 的 例子 ,考虑 雌性 负 鼠 的 总 长 度 . 
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> summary (fpossum$totlngth) 





得 到 
Min. ist Qu. Median Mean 3rd Qu. Max. 
75.00 85.25 88.50 87.91 90.50 96.50 
如 果 只 需要 均值 可 以 利用 函数 mean( ) 实 现 























> mean(fpossum$totlngth) 
[1] 87.90698 


五 数 及 样本 分 位 数 概括 


计算 五 数 用 函数 fivenum( ). 若 要 








中 位 数 使 用 函数 median( ), 最 大 值 使 用 函数 max( ), 最 小 值 使 用 
直 的 相 














A 


我 们 在 外 FP 提 过 , 计算 更 多 概率 
性 负 鼠 的 总 长 度 为 例 : 











es 
一 有 蛙 蝇 























> fivenum(fpossum$totlngth) 


得 到 分 位 数 用 函数 quantile( ), 计算 
函数 min( ). 
本 分 位 数 , 可 使 用 选项 probs. 以 肉 














[1] 75.00 85.25 88.50 90.50 96.50 


> quantile(fpossum$totlngth) 
0% 25% 50% 75% 100% 
75.00 85.25 88.50 90.50 96.50 


> quantile(fpossum$totlngth ,prob=c(0.25,0.5,0.75)) 


25% 50% 75% 
85.25 88.50 90.50 
> median(fpossum$totlngth) 
[1] 88.5 
> max(fpossum$totlngth) 
[1] 96.5 
> min(fpossum$totlngth) 
[1] 75 


离 差 的 概括 


样本 的 平均 水 平 可 以 用 上 面 介 引 





的 平均 值 务 数 mean( ) 和 中 位 数 函 



































数 median( ) 来 计算 . 样本 的 变异 程度 5 























以 用 极 值 (max( )-min( ))、 四 分 位 极 


4.3 单 组 数据 的 描述 性 统计 分 析 ‘119. 








值 函 数 (IQR( ))、 标准 差 函数 (sd( ))、 方差 函数 var( ) 和 绝对 离 差 函数 (mad( 
) ) 来 表示 . 方差 函数 var( ) 也 可 用 于 计算 两 个 向 量 协 方差 或 一 个 矩阵 的 协 方 
差 阵 . 对 于 xz = (z1,… ,Xn), sd( ) 的 定义 为 

















sd(x) > (Ti Se 也) 


nO—1 





mad( ) 在 及 中 的 定义 为 


1.4826*median(abs (x-medqian(x))) 



































其 中 系数 1.4826 约 等 于 1/qnorm(3/4), 目的 是 为 了 使 mad(x) 作为 方差 的 估计 具 
有 一 致 性 (在 正 态 或 大 样本 下 ). 仍 以 雌性 负 鼠 的 总 长 度 为 例 : 

















> max(fpossum$totlngth)-min(fpossum$totlngth) 
[1] 21.5 

> IQR(fpossum$totlngth) 
[1] 5.25 

> sd(fpossum$totlngth) 
[1] 4.182241 

> sd(fpossum$totlngth) “2 
[1] 17.49114 

> var(fpossum$totlngth) 
var(fpossum$totlngth) 

> mad(fpossum$totlngth) 
[1] 3.7065 


样本 偏 度 系数 和 上 峰 度 系数 











设 随机 变量 XX 的 三 阶 矩 存在 , 则 称 比值 

















-EXE __% 
'T [B(X BOOTE ~ (%)P 





为 XX 的 偏 度 系 数 . 6! > 0 时 分 布 为 正 偏 (或 石 偏 ); B1 = 0 时 分 布 关于 均值 对 称 ; 
B1 < 0 时 分 布 为 负 偏 (或 堪 偏 ). 用 样本 的 中 心 逢 代 准 总 体 的 中 心 矩 就 可 得 到 样 
本 的 偏 度 系数 . 
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设 随机 变量 X 的 四 阶 窍 存在 , 则 称 比 值 


BR  。， 沁 
[B(X — E(X)?]? (v2)? 











bz = 

















为 了 的 峰 度 系数 . 峰 度 系数 刻 划 的 是 分 布 的 峰 度 , 6。> 0 时 标准 化 后 的 分 布 形 
状 比 高 斯 分 布 更 尖 峭 , 称 为 高 峰 度 ; fs = 0 时 标准 化 后 的 分 布 形 状 与 高 斯 分 布 相 
当 ; B62 < 0 时 标准 化 后 的 分 布 形 状 比 高 斯 分 布 更 平坦 , 称 为 低 峰 度 . 用 样本 的 中 
心 矩 代替 总 体 的 中 心算 就 可 得 到 样本 的 偏 度 系数 . 


R 的 扩展 统计 程序 包 fBasics 提 供 了 函数 skewness( ) 用 来 求 样 本 的 偏 度 ， 
函数 kurtosis( ) 用 来 求 样本 的 峰 度 . 对 于 雌性 负 鼠 的 总 长 度 有 

















































































































> library(fBasics) 

> skewness(fpossum$totlngth) 
[1] -0.54838 

> kurtosis(fpossum$totlngth) 
[1] 0.6170082 














3 外, fBasics 程 序 包 的 函数 basicStats( ) 提 供 了 几乎 上 面 所 有 的 统计 特征 





地 池 





84.4 ”多 组 数据 的 描述 性 统计 分 析 
4.4.1 ”两 组 数据 的 图 形 概括 


散 点 图 




















在 两 组 数据 的 图 形 展 示 中 , 散 点 图 是 简单 而 重要 的 工具 , 因为 它 能 清楚 地 
晴 述 两 组 数据 的 关系 . 下 面 我 们 来 看 一 个 例子 . 
例 4.4.1 ”在 及 的 程序 包 DAAG 中 有 数据 集 cars, 使 用 下 边 的 命令 得 到 数 













































































据 集 . 





> library (DAAG) 
> datal(cars) 
> cars 


speed dist 
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1 4 2 
10 
3 4 


48 24 93 
49 24 120 
50 25 85 








我 们 希望 估计 速度 (speed) 与 终止 距离 (dist) 之 间 的 关系 , 先 考 查 它 们 之 间 
的 散 点 图 , 命令 





> plot(cars$dist ~ cars$speed, 
xlab = "Speed (mph)"， 
ylab = "Stopping distance (ft)") 


> lines(lowess(cars$speed, cars$dist),]lwd=2) 











得 到 图 4.22. 图 4.22 表 明 speed 和 dist 基 本 呈现 线性 相依 关系 . 所 以 散 点 图 在 描 








Stopping distance (ft) 
40 6| 80 100 
1 1 


20 
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Speed (mph) 








而 


图 4.22 speed 与 dist 的 散 点 











述 二 维 数据 的 关系 方面 很 重要 . 
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注意 到 我 们 用 一 条 非 线 性 的 特殊 曲线 来 拟 和 这 种 关系 , 调用 了 子 
数 lowess( )， 在 RR 中, 有 两 个 函数 可 以 实现 这 个 功能 , 一 个 是 lowess( )， 
男 一 个 是 loess( ), 前 者 只 能 适用 于 二 维 的 情况 , 而 loess( ) 可 以 处 理 多 维 的 
情况 . lowess( ) 的 具体 的 调用 格式 如 下 : 










































































lowess( ) 的 调用 格式 
lowess(x, y = NULL, f = 2/3, iter = 3， 
delta = 0.01 *diff(range(xy$x[o]))) 













在 散 点 图 中 加 入 拟 和 曲线 对 于 我 们 认识 总 体 的 特征 很 有 帮助 . 
































进一步 , 通过 函数 rug( ) 可 以 在 横 轴 和 纵 轴 上 标明 数据 的 具体 的 位 置 . 


























> rug(side=2, jitter(cars$dist, 20)) 
> rug(side=1, jitter(cars$speed, 5)) 





















































得 到 图 4.23. 
cars data 
8 SE , . 100 - , 
EE a 0 BE 1 Ll an Li 由 HL J 上 H 
Cs hd T | S | 1 i MN Lh Tel ML | HH 10 蛋 20 25 
5 10 15 20 2 
Speed (mph) 
Speed (mph) 
4.23 ”和 带 rug 的 散 点 图 图 4.24 ”加 上 箱 形 图 的 散 点 图 
我 们 也 可 以 在 数 轴 两 边 加 上 单 变量 的 箱 形 图 . 
> op <- par( ) 
> layout (matrix(c(2,1,0,3), 2, 2, byrow=T ), c(1,6), c(4,1)) 
> par (mar=c(1,1,5,2)) 
> plot(cars$dist ~ cars$speed, 


xlab="', ylab=""， las = 1) 
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V V V V V V VvV VvV VvV YYV 


rug(side=1, jitter(cars$speed, 5) ) 
rug(side=2, jitter(cars$dist, 20) ) 
title(main = "cars data") 
par(mar=c(1,2,5,1)) 

boxplot (cars$dist, axes=F) 
title(ylab='Stopping distance (ft)', line=0) 
par (mar=c(5,1,1,2)) 

boxplot (cars$speed, horizontal=T, axes=F) 
title(xlab='Speed (mph)', line=1) 

par (op) 








运行 得 到 图 4.24. 这 样 我 们 既 可 以 了 解 两 个 变量 的 统计 量 也 可 以 看 出 两 变量 之 
间 的 关系 . 
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> 
> 
> 
> 


























有 了 时候 数据 大 多 太 集 中 , 散 点 图 上 的 信息 不 容易 看 出 来 . 例如 

















UD 








library (chplot) 
data(hdr) 

x<- hdr$age 

y<- log(hdr$income) 
plot (x,y) 














得 到 的 图 4.25， 这 时 我 们 要 借助 于 三 维 的 密度 估计 来 认识 图 形 ， 首 先 使 
用 MASS 程 序 包 中 的 二 维 核 密度 估计 函数 kde2dq( ) 来 估计 这 个 二 维 数据 的 密度 















































函数 , 再 利用 函数 contour( ) 画 出 密度 的 等 高 曲线 图 . 


> 


> 


> 











library (MASS) 
Z <- kde2d(x,y) 
contour(z, col = "red", drawlabels = FALSE， 


main = "Density estimation: contour plot") 





运行 得 到 图 4.26. 














我 们 也 可 以 利用 函数 persp( ) 作 出 三 维 透视 图 , 这 样 看 更 形象 . 








income 


Density estimation: contour plot 
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图 4.25 age 与 income 的 散 点 图 图 4.26 age 与 income 的 等 高 线 图 

















persp(z, main = "Density estimation: perspective plot") 


运行 得 到 图 4.27. 





Density estimation: perspective plot 























































































































图 4.27 三 维 图 形 . 
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数据 的 变换 
当 直 接 用 原 数 据 得 不 到 有 意义 的 图 形 时 , 可 以 对 数值 进行 变换 以 得 到 有 意 
义 的 图 形 , 最 常用 是 是 对 数 变换 、 倒 数 变 换 、 指 数 变换 和 更 为 一 般 的 Box-Cox 变 
换 : | 
1 一 
一 一 一 ， 如 果 入 不 0， 
f(z) = 入 
log(y)， 如 果 和 = 0. 
我 们 用 程序 包 MASS 中 的 数据 集 Animal 来 举例 说 明 . 














例 4.4.2 ”首先 调 出 数据 集 Animal 





> library (MASS) 


> data(Animals) 


> Animals 


输出 数据 结果 如 下 : 

body brain 
Mountain beaver 1.350 8.1 
Cow 465.000 423.0 
Grey wolf 36.330 119.5 
Goat 27.660 115.0 
Guinea pig 1.040 5.5 
Dipliodocus 11700.000 50.0 
Pig 192.000 180.0 





我 们 在 R 中 画 两 个 图 , 一 个 使 用 原始 的 数据 , 男 一 个 对 原来 的 数值 取 对 数 . 











> par (mfrow=c(1,2)) 


> plot (brain“body,data=Animals) 
> plot (log(brain)“log(body) ,data=Animals) 





得 到 图 


4.28. 可 以 看 到 图 4.28 左 侧 的 散 点 图 没有 价值 , 而 从 右 侧 的 散 点 图 可 以 








看 出 两 组 数据 在 取 对 数 后 呈现 明显 的 线性 相依 关系 . 对 两 组 数据 取 对 数 的 技巧 





在 绘图 





中 很 常见 , 生活 中 许多 数据 成 指数 上 升 趋势 , 比如 细胞 繁殖 , 这 种 数据 
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取 对 数 后 就 呈 线 性 上 升 趋势 . 因此, 对 数据 作对 数 处 到 

















有 意义 . 



































(或 更 为 一 般 的 变换 ) 很 
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图 4.28 数据 变换 比较 图 . 
4.4.2 ”多 组 数据 的 图 形 描述 
对 多 组 数据 ,我 们 给 出 3 种 作 图 的 方法 (函数 ): pairs( ) 或 plot( )， 
matplot( ) 和 boxplot( ). 它们 都 可 以 看 成 一 维 或 二 维 画 图 函数 的 延伸 . 


















































我 们 仅 通 一 个 例子 加 以 说 明 , 具有 使 方法 可 参考 相应 的 帮助 文件 . 

















例 4.4.3 
> n<-10 
> d<-data.frame(y1 = abs(rnorm(n) ) ， 
y2 = abs(rnorm(n)), 
y3 = abs(rnorm(n)), 


y4 = abs(rnormGn) ) ， 
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y5 = abs(rnorm(n)) 
) 


散 点 图 











多 组 数据 的 散 点 图 就 是 不 同 变量 的 散 点 图 像 矩 阵 一 样 放 在 一 起 , 使 月 
数 为 pairs( ), 也 可 直接 使 用 散 点 图 函数 plot ( ). 运行 





bene 





>plot(d) # 或 者 pairs(d) 


















































El y 
得 到 图 4.29. 
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图 4.29 多 组 数据 的 散 点 图 . 
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和 矩阵 





























matplot( ) 在 处 理 多 组 数据 时 很 好 用 . 它 与 散 点 图 矩阵 的 区 别 是 将 各 个 
散 点 图 放 在 同一 个 作 图 区 域 中 . 对 于 上 面 的 模拟 数据 运行 















































> matplot(d, type = '1', ylab = "", main = "Matplot") 
得 到 图 4.30. 
Matplot 
S93 T T L T T 
2 4 6 8 10 
图 4.30 多 组 数据 的 matplot 图 . 














框 须 














使 用 函数 boxplot( ) 可 在 同一 个 作 图 区 域 画 出 各 组 数 的 框 须 图 ( 盒 形 
对 于 上 面 的 数据 运行 











和 
Mom 


>boxplot (d) 
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得 到 图 4.31. 
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图 4.31 多 组 数据 的 boxplot 图 . 




















分 组 数据 比较 特殊 , 它 既 含有 定性 的 变量 , 又 含有 数值 型 变量 , 而 上 面 所 
说 的 多 组 数据 , 我 们 仅 局 限于 数值 型 的 观测 , 我 们 将 在 后 面 一 节 专 门 给 出 带 定 
性 变量 的 分 组 数据 的 描述 性 统计 分 析 . 
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4.4.3 ”多 组 数据 的 描述 性 统计 


多 组 数据 的 概述 






































对 多 组 数据 进行 概述 与 单 组 数据 情形 类 似 , 直接 使 用 summary( ) 可 以 得 
到 各 组 数据 的 均值 和 五 数 . 先 看 一 个 例子 

例 4.4.4 程序 包 datasets 中 数据 框 state.x77 描述 了 美国 50 个 州 的 人 
数 、 人 均 收 入 、 人 均 寿 命 、 一 年 中 有 雾 的 天 数 等 情况 . 数据 如 下 : 
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> state.x77 
Population Income Illiteracy Life Exp ... 


Alabama 3615 3624 2.1 69,00. 53 
Alaska 365 6315 1.5 69.31 .. 
Arizona 2212 4530 1.8 70.55 .. 
Wisconsin 4589 4468 0Q:.7 72.48 ... 
Wyoming 376 4566 0.6 (0329 ress 


使 用 函数 summary( ) 概 括 state.x77, 结果 如 下 : 


> summary (state.x77) 

Population Income Illiteracy Life Exp 
Min. : 365 Min. :3098 Min. :0.500 “Min. :67.96 
1st Qu.: 1080 1st Qu.:3993 1st Qu.:0.625 1st Qu.:70.12 
Median : 2839 Median :4519 Median :0.950 Median :70.67 

1 
1 





Mean : 4246 Mean :4436 Mean .170 Mean :70.88 

3rd Qu.: 4969 3rd Qu.:4814 3rd Qu.:1.575 3rd Qu.:71.89 

Max. :21198 Max. :6315 Max. :2.800 Max. :73.60 
Murder HS Grad Frost Area 

Min. : 1.400 Min. :37.80 Min. : 0.00 Min. : 1049 


1st Qu.: 4.350 1st Qu.:48.05 1st Qu.: 66.25 1st Qu.: 36985 
Median : 6.850 Median :53.25 Median :114.50 Median : 54277 














Mean : 7.378 Mean :53.11 Mean :104.46 Mean : 70736 
3rd Qu.:10.675 3rd Qu.:59.15 3rd Qu.:139.75 3rd Qu.: 81163 
Max . :15.100 Max . :67 .30 Max . :188 .00 Max . :566432 


为 了 统计 不 同 地 区 (Northeast, South, North Central, West) 的 这 儿 个 变量 的 均 
值 (或 中 位 数 、 分 位 数 ) 可 以 使 用 分 组 概括 函数 aggregate( ), 其 调用 格式 如 
下 











aggregate( ) 的 调用 格式 
aggregate(x, by, FUN, ...) 


























说 明 : x 是 数据 框 , by 指定 分 组 变量 , fun 是 用 于 计算 的 统计 函数 . 如 果 计 算 均 


值 , fun 为 mean. 接着 上 面 的 例子 计算 各 个 地 区 各 个 变量 的 均值 : 
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> aggregate(state.x77, list(Region = state.region), mean) 


Region Population Income Illiteracy LifeExp ... 
1 Northeast 5495.111 4570.222 1.000000 71.26444 ... 
2 South 4208.125 4011.938 1.737500 69.70625 ... 
3 North Central 4803.000 4611.083 0.700000 71.76667 ... 
4 West 2915.308 4702.615 1.023077 71.23462 ... 








同样 , 根据 不 同 地 区 和 和 是否 一 年 中 有 雾 的 天 数 超过 130 来 统计 这 几 个 变量 的 均 
值 : 


























aggregate(state.x77, list(Region = state.region, 
Cold = state.x77[,'"Frost"] > 130) ,mean) 
Region Cold Population Income Illiteracy Life Exp 


1 Northeast FALSE 8802.8000 4780.400 1.1800000 71.12800 
2 South FALSE 4208.1250 4011.938 1.7375000 69.70625 
3 North Central FALSE 7233.8333 4633.333 0.7833333 70.95667 
4 West FALSE 4582.5714 4550.143 1.2571429 71.70000 
5 Northeast TRUE 1360.5000 4307.500 0.7750000 71.43500 
6 North Central TRUE 2372.1667 4588.833 0.6166667 72.57667 
7 West TRUE 970.1667 4880.500 0.7500000 70.69167 








注 : Cold 为 TRUE 表 示 该 地 区 一 年 有 筋 的 天 数 超过 130 天 ; Cold 为 FALSE 表示 该 
地 区 一 年 有 雾 的 天 数 没有 超过 130 天 . 




















标准 差 与 协 方差 阵 的 计算 





























变量 标准 差 的 计算 仍然 使 用 函数 sa( ) 








> options(digits=3) 

> sd(state.x77) 

Population Income Illiteracy Life Exp Murder HS Grad Frost Area 
4464.49 614.47 0.61 1.34 3.69 8.08 51.98 85327.30 

















函数 var( ) 应 用 在 多 组 数据 中 计算 的 是 协 方差 阵 : 














> var(state.x77) 
Population Income Illiteracy Life Exp 
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Population 19931684 571230 292.868 -4.08e+02 

Income 571230 377573 -163.702 2.81le+02 

Illiteracy 293 -164 0.372 -4.82e-01 

Life Exp -408 281 -0.482 1.80e+00 

Murder 5664 -522 1.582 -3.87e+00 

HS Grad -3552 3077 -3.235 6.31e+00 

Frost -77082 7228 -21.290 1.83e+01 

Area 8587917 19049014 4018.337 -1.23e+04 

同上 ,我 们 可 以 用 函数 aggregate( ) 分 别 计算 不 同 区 域 的 标准 差 : 

















> aggregate(state.x77, list(Region = state.region), sd) 


Region Population Income Illiteracy Life Exp 


1 Northeast 
2 South 
3 North Central 
4 West 


相关 系数 的 计算 


散 点 图 让 我 们 对 两 组 数据 的 线 怕 
还 (Pearson) 相 关系 数 可 以 度量 这 种 线 怕 


























数 或 相关 系数 和 








cor(x, y = NULL, use = 


6080 
2780 
3703 
5579 





559 
605 
283 
664 


性 关系 , 而 是 单调 的 , 这 时 可 使 用 斯 皮尔 曼 
关系 数 , 因为 它们 描述 的 是 秩 相关 怕 


cor( ) 的 调用 格式 


"all.obs", method = 


0.278 
0.552 
0.141 
0.608 








= 


c("pearson", "kendall","spearman")) 








0.744 
1.022 
1.037 
1.352 


E 相 依 关 系 有 了 直观 的 认识 ,皮尔 
EE 相关 性 程度 . 如 果 数 据 呈 现 的 不 是 线 
(Spearman) 或 者 肯 德 尔 (Kendal11) 相 
E. 在 及 中 我 们 使 用 函数 cor( ) 计 算 相 关系 
E 阵 , 其 调用 格式 如 下 : 





例如 , 我 们 计算 下 面 二 个 向 量 zx 与 y 之 间 的 三 个 相关 系数 : 


> x<-c(44.4, 45.9, 46.0, 46.5, 46.7, 47, 48.7, 49.2,60.1) 
> Te(2.6, 10,1, 11.85; 30,.0, 32.6, 50,.0, 65,2, 85.8, 86.,8) 


> cor(x,y) 
[1] 0.768587 


> cor(x,y,method="spearman") 
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[1] 1 
> cor(x,y,method="kendall")) 
[1] 1 























从 z 与 y 的 散 点 图 ( 见 图 4.32) 可 以 看 出 , x 与 y 的 线性 相关 系数 受到 右上 角 一 
个 极端 值 的 影 而 变 小 了 . 因此 在 计算 相关 性 度量 的 时 候 我 们 要 考虑 计算 哪 种 相 
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4.4.4 ”分 组 数据 的 图 形 概括 


分 组 数据 可 视 为 特殊 的 多 组 数据 , 他 们 的 区 别 是 : 在 多 组 数据 中 各 数值 型 
变量 的 观测 值 指向 不 同 的 对 象 , 而 分 组 数据 是 指 同一 个 数值 型 变量 的 观测 值 按 
男 一 个 分 类 变量 分 成 若干 个 子 集 , 因此 , 这 些 子 集 指向 同一 个 变量 .下 面 我 们 
通过 DAAG 中 的 数据 集 cuckoos 来 看 一 下 分 组 数据 的 特殊 图 形 描 述 方法 . 

例 4.4.5 ” 杜 鹏 把 蝇 下 在 其 它 种 类 鸟 的 鸟巢 中 , 这 些 鸟 会 帮 它 们 孵化 , 我 
们 希望 了 解 在 不 同类 的 鸟巢 中 杜 静 蛋 的 长 度 , 数据 如 下 : 
































































































































> data(cuckoos) 





> cuckoos 


length breadth species id 
1 21.7 16.1 meadow.pipit 21 
2 22.6 17.0 meadow.pipit 22 
118 20.8 15.9 wren 236 
119 21.2 16.0 wren 237 
120 21.0 16.0 wren 238 
使 用 条 件 散 点 图 



































当 数 据 集 中 含有 一 个 或 多 个 因子 变量 时 , 可 以 使 用 条 件 散 点 图 函 
数 coplot( ) 作 出 因子 变量 不 同 水 平 下 的 多 个 散 点 图 ， coplot( ) 的 调用 格 
式 为 : 





























对 于 一 个 因子 变量 a, 变量 z 与 y 的 条 件 散 点 图 可 用 下 面 的 命令 得 至 


人 一 














> coplot(y ~ x | a) 





对 于 二 个 因子 变量 a 与 b, 变量 x 与 y 的 条 件 散 点 图 可 用 下 面 的 命令 得 到 : 














> coplot(y ~ x | a*b) 

对 于 例 4.4.5, 运行 命令 

> coplot(length ~ breadth | species) 
得 到 图 4.33. 


使 用 直方 图 
































简单 而 繁琐 的 方法 是 反复 使 用 函数 hist( ). 运行 命令 





data(cuckoos) 


attach(cuckoos) 
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Given : species 
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pied.wagtail 


Cw 
tree.pipit 








15.0 15.5 16.0 16.5 17.0 17.5 


150: 15,5. “16.0 16.5: 170 175 








2 
厂 
2 
2 8 5 
9 oo 
疝 二 o O oo0 
o 0 0 o 
0 
co 0 © lee go 
8 ge 6 一 9 5 ol 0 
og8o o 
人 680 ges.08 o 
NN * 800 o o 
oO o8 
RN 本 © o - 














图 





4.33 各 鸟 梨 杜 明 


15.0 "155 110 16.5 17.0 4175 





breadth 


龟 蛋 长 度 与 宽度 的 散 点 图 . 





length.mp <- length[species=="meadow.pipit"] 


length.tp <- length[species=="tree.pipit"] 


length.hs <- length[species=="hedge.sparrow"] 


length.r <- length[species=="robin"] 


length.pw <- length[species=="pied.wagtail"] 


length.w <- length[species=="wren"] 


par (mfrow=c (3,2)) 


hist(length.mp,breaks=6,probability=T, 
xlim=c(19,25) ,ylim=c(0,1) ,main="",col=6) 
hist(length.tp,breaks=6,probability=T, 
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Xxlim=c(19,25) ,ylim=c(0,1) ,main="" ,col=6) 
hist(length.hs,breaks=6,probability=T, 

Xxlim=c(19,25) ,ylim=c(0,1) ,main="" ,col=6) 
hist(length.r,breaks=6,probability=T, 

Xxlim=c(19,25) ,ylim=c(0,1) ,main="",col=6) 
hist(length.pw,breaks=6,probability=T, 

Xxlim=c(19,25) ,ylim=c(0,1) ,main="" ,col=6) 
hist(length.w,breaks=6,probability=T, 

xlim=c(19,25) ,ylim=c(0,1) ,main="" ,col=6) 
par (mfrow=c (1 ,1)) 


得 到 图 4.34. 
































方 组 图 . 直方 组 图 函数 hists( ) 定 义 为 : 








直方 组 图 函数 hists( ) 的 定义 


hists <- function (x, y, ...) +{ 











y <- factor(y) 

n <- length(levels(y)) 

op <- par( mfcol=c(n,1), mar=c(2,4,1,1) ) 

b <- hist(x, ..., plot=F)$breaks 

for (1 in levels(y)){ 

hist(x[y==1] , breaks=b, probability=T, ylim=c(0,1.0), 
main="", ylab=1, col=’lightblue’, xlab="", ...) 


points(density(x[y==1]), type=’l1’, lwd=3, col=’red’) 
} 
par (op) 

















我 们 可 将 上 面 的 直方 图 纵向 压缩 在 一 起 ( 像 后 面 的 框 须 图 ), 得 到 所 谓 的 直 





ylim 的 范围 可 以 根据 需要 自己 调整 , 这 更 能 直观 地 展示 我 们 和 数据 . 由 此 运行 

















> hists(cuckoos$length,cuckoos$species) 


运行 得 到 图 4.35. 


我 们 也 可 直接 利用 lattice 包 中 的 直方 图 函数 histogram( ) 得 
于 4.34 的 每 组 数据 的 直方 图 . 运行 命令 
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图 4.34 各 乌 巢 杜 鹏 和 蛋 的 直方 图 ， 




















> histogram(“length|species,data=cuckoos) 


























位 


到 图 4.36. 显然 , 这 种 方法 容易 方便 多 了 . Lattice 程 序 
能 强大 、 使 用 方便 的 其 它 作 图 函数 , 有 兴趣 的 读者 可 通 ; 
用 












































还 提供 了 其 它 许多 功 
其 帮助 文件 学 习 和 使 


要 











使 用 框 须 图 


我 们 可 以 用 函数 boxplot( ) 同时 考查 各 组 数据 的 分 布 . 命令 








> boxplot(1length~specjies ,qata=cuckoos ， 
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xlab="length of egg",horizontal=TRUE) 














得 到 图 4.37. 注意 到 horizontal=TRUE 是 让 盒子 横向 放置 . 从 图 上 我 们 可 以 看 
出 在 wren( 仍 话 ) 梨 中 的 杜鹃 和 蛋 长 度 最 小 . 























使 用 条 形 图 


利用 函数 stripchart( ) 得 到 杜 鹏 蛋 在 不 同 鸟 集 的 长 度 的 分 布 图 ， 耶 
数 stripchart( ) 在 数据 不 多 的 时 候 和 函数 boxplot( ) 的 功能 类 似 , 描绘 了 数 
据 分 布 的 情况 , 其 调用 格式 如 下 : 







































































stripchart( ) 的 调用 格式 


> stripchart (x, method ="overplot"....) 





说 明 : method 说 明 数 据 重 复 的 时 候 该 如 何 放置 , 有 三 种 方式 : overplot 是 重 
放置 ,stack 是 把 数据 全 起 来 , jitter 是 散 放 在 数值 的 周围 . 
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图 4.36 各 乌 巢 杜 锡 各 的 直方 图 . 








> Stripchart(cuckoos$1length~cuckoos$species， method ="jitter" ) 


导 到 图 4.38. 





使 用 密度 曲线 图 





lattice 包 中 的 函数 densityplot( ) 可 分 别 展示 每 组 数据 的 密度 曲线 图 . 

















> densityplot (“length|species,data=cuckoos) 


得 到 图 4.39. 
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图 4.37 各 鸟巢 杜 鹏 重 的 boxplot 图 . 





84.5 ”分 类 数据 的 描述 性 统计 分 析 

















如 果 数 据 集中 对 应 的 变量 都 是 定性 变量 , 这 样 的 数据 称 为 分 类 数据 . 这 种 
二 元 定 

















数据 常 使 用 表格 来 描述 , 并 为 进一步 的 统计 分 析 服 务 . 我 们 主要 考虑 由 
性 数据 所 构成 的 二 维 列 联 表 数 据 , 这 一 节 主 要 描述 如 何 制 作 列 联 表 和 
述 , 列 联 表 的 独立 性 检验 将 在 第 七 章 87.3 中 介绍 . 






























































4.5.1 ” 列 联 表 的 制作 


由 分 类 数据 构造 列 联 表 














图 形 描 











例 4.5.1 “为 考查 眼睛 的 颜色 (Eye) 与 头发 的 颜色 (Hair) 之 间 的 关系 , 收 








集 了 下 面 的 一 组 数据 
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图 4.38 ”各 鸟巢 杜 鹏 重 的 stripchart 图 . 


Eye 
Hair Brown Blue Hazel Green 
Black 68 20 15 5 
Brown 119 84 54 29 
Red 26 17 14 14 
Blond 7 94 10 16 








我 们 可 以 通过 矩阵 建立 这 个 列 联 表 , 命令 如 下 











> Eye.Hair <- matrix(c(68,20,15,5, 119,84,54,29, 
26,17,14,14, 7,94,10,16), nrow=4,byrow=T) 

> colnames(Eye.Hair) <- c("Brown", "Blue", "Hazel", "Green") 

> rownames(Eye.Hair) <- c("Black","Brown","Red", "Blond") 


> Eye.Hair 
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图 4.39 各 乌 梨 杜鹃 入 的 密度 曲线 图 . 











由 原始 数据 构造 列 联 表 


及 中 可 以 使 有 






































例 4.5.2 


ner, menarche. 则 我 们 可 以 得 到 下 面 的 一 些 列表 : 


> table(sex) 








\ 体 用 法 参见 它们 的 帮助 . 我 们 仅 以 table( ) 为 例 加 以 举例 说 明 . 其 用 


table( ) 的 调用 格式 
| > table(factori1,factor2,...) ] 


崩 函 数 table( ), xtabs( ) 或 ftable( ) 由 原始 数据 构造 列 














数据 包 ISwR 中 的 数据 集 juul 中 含有 三 个 分 类 变量 : sex, tan- 


> table(sex,menarche) 


> table(menarche ,tanner) 
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tanner 

menarche 2 3 4 5 
1 221 43 32 14 2 
2 1 1 5 26 202 


获得 边际 列表 


























在 实际 使 用 时 常 需要 按 列 联 表 中 某 个 属性 (因子 ) 求 和 , 称 之 为 边际 
列表 . 除了 使 用 前 面 已 经 提 到 的 函数 apply( ) 外 ， 更 为 方便 的 是 使 用 函 
数 margin.table( ). 例如 , 对 于 数据 Eye.Hair, 我 们 有 



































> margin.table(Eye.Hair,1) 

Black Brown Red Blond 
108 286 4 127 

> margin.table(Eye.Hair ,2) 

Brown Blue Hazel Green 
220 215 93 64 





其 中 选项 1 和 2 分 别 表示 按 行 和 按 列 求 边际 和 . 


频率 列 联 表 











上 面 的 列 联 表 的 元 素 为 分 类 变量 (因子 ) 的 频数 , 故 可 称 为 频数 列 联 
1 频数 列 联 表 除 以 边际 和 就 可 得 到 它们 的 (相对 ) 频 率 列 联 表 , 这 可 通过 
数 prop.table( ) 实 现 . 若 再 乘 上 100 就 得 到 相对 应 的 用 百分比 表示 的 ( 相 
对 ) 频 率 列 联 表 . 仍 以 上 面 的 例子 加 以 说 明 


站 





























ey 
























































> prop.table(Eye.Hair,1) 
Brown Blue Hazel Green 
Black 0.63 0.2 0.14 0.05 
Brown 0.42 0.3 0.19 0.10 
Red 0.37 0.2 0.20 0.20 
Blond 0.06 0.7 0.08 0.13 
> prop.table(Eye.Hair,1)*100 


Brown Blue Hazel Green 


:14 第 四 章 探索 性 数据 分 析 






































Black 63 19 14 5 
Brown 42 29 19 10 
Red 37 24 20 20 
Blond 6 74 8 13 
注意 : 全 局 相对 频率 列 联 表 不 能 由 prop.table( ) 得 到 , 但 可 以 用 下 面 的 命令 








得 到 


> Eye.Hair/sum(Eye.Hair) 
Brown Blue Hazel Green 
Black 0.11 0.03 0.03 0.008 
Brown 0.20 0.14 0.09 0.049 
Red 0.04 0.03 0.02 0.024 
Blond 0.01 0.16 0.02 0.027 


4.5.2 ” 列 联 表 的 图 形 描述 


使 用 条 形 图 

















像 单 组 数据 一 样 , 我 们 可 以 用 条 形 图 (或 称 为 柱状 图 ) 来 表示 . 运行 























> data(HairEyeColor) 
> a <- as.table(apply (HairEyeColor,c(1,2),sum)) 


> barplot(a, legend.text = attr(a, "dimnames")$Hair) 


得 到 图 4.40. 这 是 按 行 (头发 颜色 ) 闭 加 、 按 列 (眼睛 颜色 ) 排 列 的 条 形 图 . 我 们 也 
可 将 列 并 列 放 , 这 时 只 需 选 项 beside 取 值 为 TRUE. 运行 














> barplot(a, beside = TRUE， 


legend.text = attr(a, "dimnames")$Hair) 





得 到 图 4.41. 


使 用 点 图 














/人知 
区 
一 


函数 dotchart( ) 给 出 Cleveland 点 民 





> dotchart (Eye.Hair) 
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图 4.40 ”二 元 定性 数据 的 条 形 图 (1). 
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图 4.41 二 元 定性 数据 的 条 形 图 (2). 





得 到 图 4.42. 

















1 





图 4.42 ”二 元 定性 数据 的 Cleveland 点 图 . 








4.5 分 类 数据 的 描述 


性 统计 分 析 “147. 





第 四 章 习 题 























4.1 ”模拟 得 到 1000 个 参数 为 0.3 的 贝 努 里 分 布 随机 数 , 并 用 图 示 表 示 出 来 
令 产 生 1000 个 均值 为 10, 方差 为 4 的 正 态 分 布 随机 数 ， 


4.2 “用 命令 rnorm( ) 命 


用 直方 图 呈现 数据 的 分 布 并 添加 核 密度 曲线 . 





















































4.3 ”模拟 得 到 三 个 t 分 布 混合 而 成 的 样本 , 用 直方 图 呈现 数据 的 分 布 并 添加 
核 密度 曲线 . 














4.4 1 程序 包 DAAG 中 的 数据 集 possum， 

















1) 利用 函数 hist (possun$age) 作 出 负 鼠 年 龄 的 直方 图 , 试 选用 两 种 不 同 的 


斯 避 





省 作 比 较 , 说 明 














两 图 的 不 同 之 处 ; 

















2) 求 出 负 鼠 年 龄 变量 的 均值 、 标 准 差 、 中 位 数 以 及 上 下 四 分 位 数 . 























4.5 “考虑 程序 包 DAAG': 


1) 获得 变量 
2) 在 同一 














了 上 int 和 sex 


图 上 作出 变量 











3) 作出 age 和 it 的 散 点 图 ， 


i. 
ii. 
i 
4) 作出 
5) 作出 
6) 做 出 




















的 数据 集 tinting， 





的 列 联 表 ; 
Esex 与 tint 的 联合 柱状 图 ; 
并 进一步 完成 下 面 的 操作 : 








用 函数 lowness() 作 出 拟 合 线 ; 





在 图 的 两 边 加 上 更 细小 的 刻度 ; 














在 图 的 两 边 加 上 箱 型 图 . 
age 和 it 关 于 因子 变量 tint 的 条 件 散 点 图 ; 
age 和 it 关 于 因子 变量 tint 和 sex 的 条 件 散 点 图 ; 








it 与 csoa 的 等 














高 线 

















图 ; 





7) 使 用 matplot( ) 描 述 变 量 age, it 和 csoa. 








4.6 


| 命 今 











> data(InsectSprays) 


> Insect 


| 


Sprays 

















得 到 数据 集 InsectSprays, 根据 数据 作出 有 意义 的 图 , 并 对 数据 作出 描述 性 统 
计 . 
4.7 ”假定 某 校 100 名 女生 的 血清 总 蛋白 含量 (g/E) 服 从 均值 为 75, 标准 差 为 3， 
并 假定 数据 由 下 面 的 命令 产生 































































































> options(digits=4) 
> rnorm(100,75,9) 


根据 产生 的 数据 














1) 计算 样本 均值 方差、 标准 差 、 极 差 、 四 分 位 极 差 、 变异 系数 、 偏 度 、 峰 度 
和 五 数 概括 ; 


2) 画 出 直方 图 、 核 密度 估计 曲线 、 经 验 分 布 图 和 QQ 图 ; 
3) 画 出 茶叶 图 、 框 须 图 


4.8 ” 某 校 测 得 20 名 学 生 的 四 项 指标 : 性 别 \ 年 龄 、 身 高 (cm) 和 体重 (kg), 具体 
数据 如 表 4.1 所 示 . 



















































































1) 绘制 体重 对 身高 的 散 点 图 ; 
2) 绘制 不 同性 别 下 , 体重 对 身高 的 散 点 图 ; 
3) 绘制 不 同年 龄 阶段 , 体重 对 身高 的 散 点 图 ; 

4) 绘制 不 同性 别 和 不 同年 龄 阶段 , 体重 对 身高 的 散 点 图 . 



































表 4.1: 学 生 身 高 与 体重 数据 








学 号 性 别 年 龄 身高 体重 
01 F 18 166 54 
02 F 18 155 58 
03 F 19 154 50 
04 F 18 160 47 
05 F 20 162 46 





( 续 下 页 ) 
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学 生 身高 与 体重 数据 ( 续 表 ) 

学 号 性 别 年 龄 身高 体重 
06 F 1 153 48 
07 F 21 156 50 
08 F 20 152 49 
09 F <] 170 57 
10 F 20 156 52 
11 M 18 168 61 
12 M 18 166 55 
13 M 19 172 63 
14 M 18 178 68 
15 M 20 169 59 
16 M 19 180 65 
17 M 21 177 59 
18 M 20 168 56 
19 M 21 182 69 
20 M 20 170 61 
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本 章 概 要 
4 和 矩 法 估计 和 极 大 似 然 估 计 
4 单 正 态 总 体 的 均值 和 方差 的 估计 
4 两 正 态 总 体 的 参数 估计 
4 比率 的 估计 
4 样本 容量 的 确定 








二 










































































根据 样本 推断 总 体 的 分 布 和 分 布 的 数字 特征 称 为 统计 推断 . 这 一 章 我 们 
介绍 统计 推断 的 一 个 基本 问题 一 参数 估计 问题 . 在 很 多 实际 问题 中 , 总 体 的 分 
布 类 型 已 知 但 它 包含 一 个 或 多 个 参数 , 总 体 的 分 布 完 全 由 所 含 的 参数 决定 , 这 
样 就 需要 对 参数 作出 估计 . 参数 估计 有 两 类 ,一 类 是 点 估计 , 就 是 以 某 个 统计 量 
的 样本 观测 值 作为 未 知 参数 的 估计 值 ; 为 一 类 是 区 间 估 计 , 就 是 用 两 个 统计 量 
所 构成 的 区 间 来 估计 未 知 参 数 . 























































































































§5.1 ， 德 法 估计 和 极 大 似 然 估计 


5.1.1 和 矩 法 估计 

















由 辛 钦 大 数 定律 和 科 尔 英 哥 洛 夫 强 大 数 定理 可 知 ,如 果 总 体 久 的 k 阶 矩 存 
在 , 则 样本 的 k 阶 矩 以 概率 收敛 到 总 体 的 k 阶 矩 , 样本 和 矩 的 连续 函数 收敛 到 总 体 
和 矩 的 连续 函数 . 这 就 启发 我 们 可 以 用 样本 矩 作为 总 体 矩 的 估计 量 , 这 种 用 相应 
的 样本 矩 去 估计 总 体 矩 的 估计 方法 就 称 为 矩 估 计 法 . 
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设 久 1,.… ,XX 为 来 自 某 总 体外 的 一 个 样本 , 样本 的 大 阶 原点 矩 为 
人 
Ls 
如 果 总 体 和 的 k 阶 原点 矩 j = 轧 (X*) 存 在 , 则 按 矩 法 估计 的 思想 , 用 A 去 估 
计 Jx: bx = Ax. 
设 总 体 和 的 分 布 函数 含有 K 个 未 知 参数 0 = (91,02,... ,0x), 且 分 布 的 前 k 阶 


和 窍 存 在 , 它们 都 是 1, 92, 





体 步 又 如 下 : 


1) 求 出 B(X?) 一 Hy) 二 I 2 并 假定 


Hi = 9;(0 


2) 解 方程 组 (5-1.1) 得 

















0; = hi(11, H2, . … 





3) 在 上 式 中 











若 有 样本 观测 值 z1, zz,…. 





























过 代 算法 数值 





求解 , 且 这 


.4 代替 1 7 


b = hi(Ai, 42， 


1,02,.. 


1,2,. 


.,0£), 7 = 1,2,... 


) Wk), 1 一 J 


.. ,大 即 得 0 02,.. 


Tk, 代入 上 式 即 得 01， 0,, PE 


1 于 函数 g; 的 表达 式 不 同 , 求解 上 述 方程 或 方程 


… 因 的 函数 , 此 时 求 0(7 = 1,2,…, 有 的 矩 估计 的 


. ,Ok 的 和 





Ak), = 1,2,...,k. 





. ,94 的 矩 估计 值 . 























~ 


(5-1.1) 


(5-1.2) 


合计: 




















会 相当 困 冯 














EB 
需要 具 
































面 我 们 通过 几 个 
例 5.1.1 


功 概率 , 通常 事 伯 

















程序 来 直接 估计 0, 只 能 利 

















设 X 








记 卫 = 区 Ni 则 


元 看 = 


是 9(9) 的 一 个 矩 估 计 ， 


]R 的 计算 功能 根据 上 其 
列子 来 说 明 如 何在 R 中 实现 算法 估计 . 
b(1,0) 的 一 个 样本 , 9 表示 某 伯 
F 的 成 败 机 会 比 g(9) = 0/(1 一 9) 是 人 们 感 兴趣 的 参数 , 我 们 可 
以 用 算法 估计 轻松 地 给 出 9(9) 一 个 很 不 错 的 估计 , 因 


,Xn 是 来 











体 问 题 具体 分 书 





























BE 


1 一 天 





任 , 这 时 需要 通过 





我 们 不 可 能 有 








加 





定 的 及 语言 








体 问题 编写 相应 的 及 程序 ,下 








为 9 是 总 体 均值 , 由 算法 ， 








事件 的 成 





SS 
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例 5.1.2 “对 某 个 篮球 运动 员 记 录 其 在 一 次 比赛 中 投篮 命中 与 否 , 观测 
数据 如 下 : 











1101001011101101 
0010101001101101 


编写 相应 的 及 函数 估计 这 个 篮球 运动 员 投篮 的 成 败 比 


> X<=eE(L 1 0 sh 00 1 © sl ly; Os dy L051, 
0 ,0 ,1, 0 ,1 ,0,1, 0 ,0 ,1,1 ,0 ,1, 1, 0, 1) 

> theta<-mean (X) 

> t<-theta/ (1-theta) 

> 老 

[1] 1.285714 


我 们 得 到 g(0) 的 矩 估 计 为 1.285714. 
例 5.1.3 ” 设 总 体 为 参数 为 的 指数 分 布 ,其 密度 函数 为 


D(Z| 和 ) = 和 exp az， xz>0 











向 … ,各 是 样本 , 由 于 总 体 均值 为 1/X , 则 和 的 算法 估计 为 





























及 
另外 , 由 于 Var(X) = 1/X2, 则 和 的 另 一 个 矩 法 估计 为 
< 1 
pg 
Vs2 








其 中 s2 为 样本 方差 . 这 说 明和 矩 估计 可 能 是 不 唯一 的 , 这 是 矩 法 估计 的 一 个 缺点 ， 
此 时 通常 应 该 尽量 采用 低 阶 矩 给 出 未 知 参 数 的 估计 
例 5.1.4 下面 的 观测 值 为 来 自 指数 分 布 的 一 个 样本 

















0.59132754 0.12854935 0.46900228 “0.29835980 0.24341462 
0.06566637 0.40085536 2.99687123 0.05278912 0.09898594 


我 们 来 估计 其 参数 入 . 
R 程 序 如 下 (一 阶 矩 法 估计 ): 











5.1 矩 法 估计 和 极 大 似 然 估 计 .153. 





> X<-c(0.59132754,0.12854935,0.46900228,0.29835980,0.24341462， 
0.06566637 ,0.40085536,2.99687123,0.05278912,0.09898594) 
> lambda<- 1/mean(X) 


> lambda 
[1] 1.87062 

















如 果 使 用 二 阶 矩 进行 算法 估计 , 则 得 











> lambda<- 1/sd(x) 


> lambda 
[1] 1.13103 














1) 和 的 一 阶 矩 估计 为 1.87062, 二 阶 矩 估计 为 1.13103. 实际 上 上 面 的 数据 是 








模拟 参数 为 2 的 指数 分 布 ,可 见 低 阶 矩 更 精确 . 






































2) 在 总 体 分 布 未 知 的 情况 下 也 可 以 用 样本 均值 估计 总 体 均值 , 用 样本 方差 





估计 总体 方差 . 























5.1.2 ” 极 大 似 然 估 计 


极 大 似 然 估计 法 是 建立 在 极 大 似 然 原理 基础 上 的 一 种 统计 方法 , 我 们 先 看 
































一 个 例子 : 某 位 同学 与 一 位 猎人 一 起 外 出 打 猫 , 一 上 只 野兔 从 前 方 窜 过 . 只 听 
声 枪 响 , 野兔 应 声 到 下 , 如 果 要 你 推测 ,这 一 发 命中 的 子弹 是 谁 打 的 ? 你 就 会 想 ， 







































































只 发 一 枪 便 打 中 , 由 于 猎人 命中 的 概率 一 般 大 于 这 位 同学 命中 的 概率 , 看 来 这 














枪 是 猎人 射 中 的 . 这 种 推断 就 体现 了 极 大 似 然 法 的 基本 思想 . 








散 分 布 场合 


也 








设 总 体 X 是 离散 型 随机 变量 ,其 分 布 律 为 p(z|0) , 其 中 9 是 未 知 参数 (或 
未 知 参数 向 量 ). 设 XX1, 闫 2,… ,为 取 自 总 体 X 的 样本 , 则 其 联合 概率 函数 





为 I[; P(zilg)， 























若 我 们 已 知 样本 的 观测 值 为 zh zz，…… ,zn， 则 事件 (Xi = z1,X2 = 7Z2， 
… ,XX = xn) 发 生 的 概率 为 1[; p(xi|9). 这 一 概率 随 9 的 值 而 变化 ， 从 直观 上 








来 看 , 既然 样本 观测 值 
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对 来 说 应 比较 大 . 换 句 话说 , b 应 使 样本 zt 322,… ,zw 的 出 现 上 共有 较 大 的 概率 . 
将 上 式 看 作 9 的 函数 , 并 用 L(0) 表示 , 即 























L(0) = L(z1, 22,... ,Ln;0) = r(x10). (5-1.3) 








称 L(9) 为 似 然 函数 , 极 大 似 然 佑 计 法 就 是 在 参数 9 的 可 能 取 值 范围 8 内 , 选取 
使 L(09) 达到 最 大 的 参数 值 6 作为 参数 9 的 估计 值 . 即 取 6, 使 




















L(0) = L(x1, z2,.** ,Xn;0) = max (ZL 72 , Tn; 0). 














设 总 体 X 是 连续 型 随机 变量 ,其 概率 密度 函数 为 p(xz|0)， 其 中 0 是 
未 知 参 数 (或 未 知 参 数 向 量 )， 设 Xi,X2,… ,XX 为 取 自 总 体 和 XX 的 样本 ， 则 
其 联合 密度 函数 值 为 ”f(zi|0)， 车 取得 样本 观察 值 为 21,z2)… ,x 
则 因为 (Xi, Xa,… ,Xs) 取 (z1,z2,… ,zn)( 指 落 在 其 邻 域 中 ) 的 概率 正比 
于 J]? p(zi|9), 所 以 , 按 极 大 似 然 原理 , 应 选择 9 的 值 使 此 概率 达到 最 大 . 我 
们 也 称 L(0) = TI” f(zxi|9) 为 似 然 函 数 . 再 按 离散 场合 同样 的 方法 求 使 似 然 函 
数 达到 最 大 的 参数 9 的 值 , 即 极 大 似 然 估计 值 

可 见 ,不管 在 离散 还 是 连续 场合 , 似 然 函数 都 可 表示 为 (5-1.3), 其 
中 p(z|9) 为 总 体 X 的 概率 函数 , 它 在 离散 表示 分 布 律 , 在 连续 场合 表示 密度 
函数 . 

在 单 参数 场合 , 我 们 可 以 使 用 R 中 的 函数 optimize( ) 求 极 大 似 然 估 计 值 . 
optimize( ) 的 调用 格式 如 下 : 
























































































































































optimize( ) 的 调用 格式 


optimiz(f = , interval = , lower = min(interval), 











upper = max(interval), maximum = TRUE， 
tol = .Machine$double.eps*0.25, ...) 












说 明 : f 是 似 然 函数 ，interval 是 参数 9 的 取 值 范围 lower 是 9 的 下 界 ， 


upper 是 0 的 上 界 , maximum = TRUE 是 求 极 大 值 , 否则 (maximum = FALSE) 表 示 
求 函 数 的 极 小 值 , tol 是 表示 求 值 的 精确 度 ，. . .是 对 f 的 附加 说 明 . 

在 多 参数 场合 , 我 们 用 函数 optim( ) 或 者 nlm( ) 来 求 似 然 函 数 的 极 大 值 ， 
并 求 相 应 的 极 大 值 点 . optim( ) 和 nlm( ) 的 定义 如 下 : 
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optim( ) 的 调用 格式 
optim(par, fn, gr = NULL, 
method = c("Nelder-Mead", "BFGS", "CG", "L-BFGS-B", "SANN"), 
lower = -Inf, upper = Inf， 


control = list( ), hessian = FALSE, .. 

















nlm( ) 的 调用 格式 





nlm(f, p, hessian = FALSE, typsize=rep(1, length(p)), fscale=1, 
print.level = 0, ndigit=12, gradtol = le-6， 


stepmax = max(1000 * sgrt(sum((p/typsize)“2)), 1000), 
steptol = 1e-6, iterlim = 100, check.analyticals = TRUE, ... 











三 者 的 主要 区 别 是 : 函数 nlm( ) 仪 使 用 牛顿 -拉夫 进 算法 求 函 数 的 最 小 值 点 ; 
函数 optim( ) 提 供 method 选 项 给 出 的 5 种 方法 中 的 一 种 进行 优化 ; 上 面 二 个 可 
用 于 多 维 函数 的 极 值 问 题 , 而 函数 optimize( ) 仅 适用 于 一 维 函 数 , 但 可 以 用 
于 最 大 与 最 小 值 点 . 
下 面 通过 一 个 例子 来 说 明 9 为 一 维 时 如 何 求 极 大 似 然 估计 . 
例 5.1.5 ”一 地 质 学 家 为 研究 密 获 根 湖 的 糊 滩 地 区 的 岩石 成 分 , 随机 地 
该 地 区 取出 100 个 样品 , 每 个 样品 有 十 块 石子 , 他 记录 了 每 个 样品 中 属 石灰 石 
的 石子 数 , 所 得 到 的 数据 如 表 5.1 所 示 . 假设 这 100 次 观测 相互 独立 , 求 这 地 区 石 
子 中 的 石灰 石 的 比例 p 的 最 大 似 然 估计 . 























































































































表 5.1 岩石 成 分 数据 





样本 中 的 石子 数 | 0 1 2 3 4 5 6 7 8 9 10 





样品 个 数 0 1 6 7 23 26 21 12 3 1 2 











解 显然 , 每 个 样品 中 的 石子 数 服从 二 项 分 布 b(10, p), 我 们 的 目的 是 根 
据 100 次 观测 估计 参数 p. 似 然 函数 为 





0), = ,Dow yd)e [|v(nT 
1 
ey 2 ll > 10—(1+2x6+… 十 10x2) 
p517(1 a Dp) 83 


R 中 程序 如 下 : 
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> f <- function(P) (P“*517)*(1-P)~483 
> optimize(f,c(0,1) ,maximum = TRUE) 
$maximum 

[1] 0.5170006 

$objective 

[1] 1.663700e-301 









































近似 解 处 的 函数 值 . 











因此 该 地 区 石子 中 的 石灰 石 的 比例 p 的 最 大 似 然 估 计 为 0.517. 在 计算 结果 中 ， 
$maximum 是 极 大 值 的 近似 解 , 即 估 计 值 Pz = 0.5170, $objective 是 目标 函数 在 





85.2 ” 单 正 态 总 体 参数 的 区 间 估计 























上 一 节 我 们 讨论 了 点 估计 , 由 于 点 估计 值 具 是 估计 量 的 一 个 近似 值 , 因而 
点 估计 本 身 既 没有 反映 出 这 种 近似 值 的 精度 , 即 指出 用 估计 值 去 估计 



















































































这 一 节 我 们 讨论 单 正 态 总 体 参数 的 区 间 估 计 问 题 . 





















































的 误差 范 


围 有 多 大 , 而 且 也 没有 指出 这 个 误差 范围 以 多 大 的 概率 包括 未 知 参 数 , 这 些 问 
题 正 是 区 间 估 计 要 讨论 的 问题 . 区 间 估 计 解 决 了 这 二 个 问题 , 它 给 出 了 估计 的 
可 信 程 度 ,是 一 种 重要 的 统计 推断 形式 . 我 们 在 接 下 来 的 几 节 将 讨论 这 个 问题 


本 , 广 = 















































假设 总 体 X ~ N(j,07?)，X1,… ,Xn 是 来 自 此 正 态 总 体 的 一 个 术 
225-1X: 为 其 样本 均值 , 5 = 二 Zi (一 总 为 其 样本 方差 
5.2.1 ”均值 /的 区 间 估 计 
1. 方差 ?已 知 时 的 置信 区 间 

由 于 , 

a (eg 
X~ CH | 
因此 有 
er 
of/Vn 











由 PP (—z1_g 之 久之 8) 二 1 一 Qa 即 得 





(oF 


P(X- fs < hr) =1—Q 


Vn Vn 


(5-2.1) 





ee 












































所 以 , 对 于 单个 正 态 母 体 N(1,o7), 在 0? 已 知 时 , /的 置信 度 为 1 一 a 的 置信 区 间 
为 


简 记 为 
































同 理 可 求 得 4 的 置信 和 度 为 1 一 a 的 单 侧 置信 上 限 

















三 
入 十 古人 和 























/的 置信 度 为 1 一 a 的 单 侧 置信 下 限 为 












































X ot 2 
由 在 及 中 没有 求 方差 已 知 时 均值 置信 区 间 的 内 置 函数 , 需要 自己 编写 函数 





















































编写 的 及 程序 如 下 : 








z.test( ) 函 数 的 定义 
z.test<-function(x,n,sigma,alpha,u0=0,alternative="two.sided"){ 

options (digits=4) 

result<-list( ) 

mean<-mean(x) 

z<-(mean-u0)/(sigma/sqrt (n)) 

p<-pnorm(z,lower .tail=FALSE) 

result$mean<-mean 

result$z<-z 

result$p.value<-p 


if(alternative=="two.sided"){ 


p<-2*p 
result$p.value<-p 
二 
else if (alternative == "greater"|alternative =="less" ){ 
result$p.value<-p 
a 


else return("your input is wrong") 

result$conf .int<- c( 

mean-sigma*qnorm(1-alpha/2,mean=0, sd=1, 
lower.tail = TRUE)/sqrt (n), 


158. 





meantsigma*qnorm(1-alpha/2,mean=0, sd=1, 
lower.tail = TRUE)/sqrt (n)) 
result 


} 





利 月 














昌 此 程序 即 可 给 出 体 均值 的 置信 区 间 . 此 程序 还 可 用 于 进行 第 七 章 要 讲 的 























单 正 态 总 体 均值 /的 假设 检验 , 之 所 以 在 程序 中 同时 完成 区 间 估 计 与 假设 检验 ， 
是 为 了 与 及 中 的 检验 函数 t.test( ) 相 对 应 . 实际 上 , 我 们 可 以 从 上 面 的 程序 


中 抽出 



































区 间 估 计 的 部 分 , 得 到 下 面 求 置信 区 间 的 程序 : 




















> conf.int<-function(x,n,sigma,alpha){ 


options (digits=4) 

mean<-mean(x) 

c(mean-sigma*qnorm(1-alpha/2,mean=0, sd=1, 
lower.tail = TRUE)/sqgrt (Cn) ， 

mean+tsigma*qnorm(1-alpha/2,mean=0, sd=1, 
lower.tail = TRUE)/sqrt (n)) 

} 


下 面 通过 例子 看 一 下 在 及 中 如 何 去 求 置信 度 为 1 一 a 的 置信 区 间 . 

例 5.2.1 一 个 人 10 次 称 自己 的 体重 (单位 : 斤 ): 175 176 173 175 174 173 
173 176 173 179, 我 们 希望 估计 一 下 他 的 体重 . 假设 此 人 的 体重 服从 正 态 分 布 ， 
标准 差 为 1.5, 我 们 要 求 体 重 的 置信 水 平 为 95% 的 置信 区 间 . 


解 

































































由 上 述 函 数 z.test( ), 及 程序 为 





> x<-c(175 ,176 ,173,175,174,173,173,176,173,179 ) 
> result<-z.test(x,10,1.5,0.05) 


> result$conf .int 
[1] 173.8 175.6 





注 : 运行 











因此 , 我 们 得 到 体重 的 置信 水 平 为 0.95 的 置信 区 间 为 (173.8 ,175.6). 


> z.test(x, 10, 1,5, 0.05) 








将 同时 获得 假设 检验 的 结果 , 而 上 面 的 程序 仅 提 取 了 区 间 估 计 的 部 分 , 这 相当 





于 执行 了 








2 








> x<-c(175 ,176 ,173,175,174,173,173,176,173,179 ) 
> conf.int(x,10,1.5,0.05) 

















图 
2. 方差 c >? 未知 时 /的 置信 区 间 
由 于 a 
党 一 以 
o/Vn N(0, 1), 
Ee S52 
(n 3 pe x (n 1) 
且 二 者 独立 , 所 以 有 
这 
了 = 5 ~t(n—1). (5-2.2) 


同样 由 尸 ( 一 右 s(n—1)<T<t_ s(n—1))=1— Qa 得 到 

















P(X- i <w<X+ os-D] 一 工 一 0 
n n 


Vi Vi 
所 以 , 在 o? 未 知 时 , /的 置信 度 为 1 一 a 的 置信 区 间 为 


(x- A 一 1), 玉 十 sn = 0) ， 


其 中 (nn) 为 自由 度 为 n 的 t 分 布 的 下 侧 p 分 位 数 ， 同 理 可 求 得 4 的 置信 和 度 为 1 一 
a 的 单 侧 置 信 上 限 为 

































































= D9 
X 十 -广电 -ae 人 过: 1), 


Vn 
/的 置信 度 为 1 一 a 的 单 侧 置信 下 限 为 
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Vn 



































方差 未 知 时 我 们 直接 利用 及 语言 的 t.test( ) 来 求 置信 区 间 . t.test( 
) 的 调用 格式 如 下 : 


t.test( ) 的 调用 格式 
| t.test(x, y = NULL, ] 
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alternative = c("two.sided", "less", "greater"), 
mu = 0, paired = FALSE, var.equal = FALSE, 
conf.level = 0.95, ...) 





说 明 : 若 仅 出 现 数据 xz， 则 进行 单 样本 t 检 验 ; 车 出 现 数据 z 和 y， 则 进行 二 
样本 的 {t 检 验 ( 见 6.3 节 ); alternative=c("two.sided", "less", "greater'") 
用 于 指定 所 求 置信 区 间 的 类 型 ; alternative="two.sided" 是 缺 省 值 , 表示 求 



































置信 区 间 alternative="less" 表 示 求 置信 上 限 ; alternative="greater'" 表 


示 求 置信 下 限 . mu 表示 均值 , 它 仅 在 假设 检验 中 起 作用 , 默认 值 为 零 . 


在 上 例 中 如 果 不 知道 方差 , 就 需要 用 函数 t .test( ) 来 求 置信 区 间 , 我 们 
看 一 下 在 RR 中 是 如 何 实现 的 . 


及 程序 如 下 : 
























































> x<-c(175 ，176 ，173 ，175 ,174 ,173 ，173，176 ，173,179 ) 
> t.test(x) 


运行 结果 如 下 : 


One Sample t-test 
data: X 
t = 283.8161, df = 9, p-value < 2.2e-16 
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval: 
173.3076 176.0924 

sample estimates: 
mean of x 

174.7 














我 们 可 以 看 到 置信 水 平 为 0.95 的 置信 区 间 为 (173.3076, 176.0924 ). 


我 们 注意 到 这 个 输出 结果 过 于 繁琐 , 关于 假设 检验 的 结果 仅 在 第 六 章 中 用 
到 . 由 于 我 们 只 需要 置信 区 间 的 结果 , 因此 及 程序 : 







































































> 七 .test(x)$conf . int 











提取 出 置信 区 间 的 部 分 , 结果 如 下 : 














ee 





[1] 173.3076 176.0924 
attr(,'"conf.level") 


[1] 0.95 


以 下 用 到 的 许多 程序 都 可 能 输出 很 多 结果 ,如同 此 例 , 在 其 后 面 加 
上 $conf.int 将 只 输出 置信 区 间 的 结果 . 

















5.2.2 ”方差 o? 的 区 间 估 计 









































此 时 虽然 也 可 以 就 均值 是 否 已 知 分 两 种 情况 讨论 o? 的 置信 区 间 , 但 在 实 
际 中 /已 知 的 情形 是 极为 罕见 的 , 所 以 我 们 只 在 4 未 知 的 条 件 下 讨论 o? 的 置信 
区 间 . 


由 于 























X2 = ~ X2(m 一 1 (5-2.3) 








所 以 1 














1 G2 
P(e 1) < wv -2 <xso-Dj =1—a 
就 可 得 到 ?的 置信 水 平 为 1 一 a 的 置信 区 间 


(你 一 1 5? (你 一 1 5? 
am- md) 


在 及 中 也 没有 直接 求 c” 的 置信 区 间 的 函数 , 我 们 需要 编写 自己 需要 的 函 

































































数 ,下 面 的 函数 chisq.var.test( ) 可 以 用 来 求 c? 置 信 区 间 . (第 六 章 还 将 用 于 
关于 c2 的 假设 检验 .) 


























chisq.var.test( ) 的 定义 
chisq.var.test <- function (x,var,alpha,alternative="two.sided"){ 

options (digits=4) 

result<-list( ) 

n<-length (x) 

V<-Var (x) 

result$var<-v 

chi2<-(n-1)*v/var 

result$chi2<-chi2 

p<-pchisq(chi2,n-1) 
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if(alternative == "less"|alternative=="greater'"){ 
result$p.value<-p 
} else if (alternative=="two.sided") { 
if (p>.5) 
p<-1-p 
p<-2*p 
result$p.value<-p 
} else return("your input is wrong") 
result$conf .int<-c( 
(n-1)*v/qchisgq(alpha/2, df=n-1, lower.tail=F), 
(n-1)*v/qchisgq(alpha/2, df=n-1, lower.tail=T)) 


result 


























将 此 函数 用 到 上 例 , 由 运行 显示 的 0.95 置 信 区 间 为 (1.793,， 12.628). 


85.3 ”两 正 态 总 体 参数 的 区 间 估 计 


设 总 体 X 与 yY 独 立 , X ~ Nai 了 ~ N(j2,02),，X1,… ,Xn 是 来 自 
> a > Nn1 、 a 由 n FN 
总 体 X 的 样本 ,及 = 去 于 和 天 为 其 样本 均值 , 8 = 一 玫 ,(X; 一 也) 为 


1 


其 样本 方差 . 五 ，… ,Ys 是 来 自 总 体 Y 的 样本 ,= 去 i217 为 其 样本 均值 








号 = 一 党.07 一 了 ?为 其 样本 方差 


5.3.1 ”均值 差 11 一 /2 的 置信 区 间 


1. 两 方差 都 已 知 时 两 均值 差 的 置信 区 间 























进一步 假设 o? 与 0 都 已 知 , 要 求 1 一 12 置信 水 平 为 1 一 a 的 置信 区 间 . 
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所 以 0 
Sr 
= ) Le po) 、N(0 1) (5-3.1) 
P(—z1_g <Z<%- sg)=1-—a, 
化 简 得 






































所 以 jw 一 jz 的 置信 水 平 1 - a 的 置信 区 间 为 


3 3 3 3 

me 0 CT 0 
A 2 上 +2-a4/ 二 十 二 |. 

Vn 72 Vn 72 


同 理 可 求 得 ja 一 we 的 置信 水 平 1 一 a 的 单 侧 置 信 上 限 为 
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ES oO CT 
1 2 
XY+za 一 
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Hi 一 K2 的 置信 水 平 1 一 a 的 单 侧 置信 下 限 为 




















9 2 
二 二 CT GO 
1 2 
XY zo 一 
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在 R 语 言 中 可 以 编写 函数 求 置 信 区 间 ( 单 测 置信 限 读者 可 以 类 似 地 编写 程 
序 ) 


two.sample.ci( ) 的 定义 





two.sample.ci<-function(x,y,conf.level=0.95, sigmal,sigma2 ){ 





options (digits=4) 






m= length(x); n = length(y) 






xbar=mean(x)-mean(y) alpha = 1 - conf.level 






zstar= qnorm(1-alpha/2)* (sigmal/mt+sigma2/n)“ (1/2) 





xbar +c(-zstar, +zstar) 






我 们 来 看 一 个 例子 . 





SS 
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例 5.3.1 为 比较 两 个 小 麦 品种 的 产量 , 选择 18 块 条 件 相似 的 试验 田 , 采 
用 相同 的 耕作 方法 做 实验 , 结果 播种 甲 品种 的 8 块 实验 田 的 单位 面积 产量 和 播 
种 乙 品 种 的 10 块 实验 田 的 单位 面积 产量 分 别 为 : 

甲 品种 | 628 583 510 554 612 523 530 615 

乙 品种 | 535 433 398 470 567 480 a 560 503 426 
假定 每 个 品种 的 单位 面积 产量 均 服 从 正 态 分 布 , 甲 品种 产量 的 方差 为 2140， 
乙 品 种 产量 的 方差 为 3250, 试 求 这 两 个 品种 平均 面积 产量 差 的 置信 区 间 ( 取 a 
=0.05) 


解 直接 利用 上 面 编写 的 函数 : 










































































































































































x<-c(628,583,510,554,612,523,530,615) 
y<-c(535,433,398,470,567,480,498,560,503,426) 
sigmal<-2140 

sigma2<-3250 

two.sample.ci(x,y,conf.level=0.95, sigmal,sigma2) 
[1] 34.67 130.08 


WM 
































所 以 这 两 个 品种 平均 面积 产量 差 的 置信 水 平 0.95 的 置信 区 间 为 (34.67, 130.08). 
贺 





2. 两 方差 都 未 知 时 两 均值 差 的 置信 区 间 























设 方差 o? 与 2 都 未 知 , 但 cz = o2 = o?. 此 时 由 于 








(X— Y) 一 (11 L2) 











Z= ~ N(0,1), 
2/ 二 于 
2 
和 
目 由 5? 与 92 的 相互 性 得 

















(n1 1)S? j (ma 二 1)S53 


了 3 ~ x (ni+ nz 一 2). 





(oa GO 
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由 此 可 以 得 到 
(X—Y)— (0 一 Ho) ~ t(ni + n2 — 2), (5-3.2) 
其 中 
2 (uD)5+(na— 1)53 
(m—1)+(n2—1) 
由 











P(—ti-g(n1 十 02 一 2) <7T< ti_g(n1 十 nz 一 2)) 一 工 一 


解 不 等 式 即 得 pn 一 如 的 置信 水 平 为 1 一 a 的 置信 区 间 : 









































XY+tt s(n + no 2) 5S. 


























同 理 可 求 得 jw 一 1 的 置信 水 平 为 1 一 a 的 单 侧 置信 上 限 为 


= /1 1 
XY 十 ti_a(n1 +- nz 2) 本 厅 5, 
1 2 


1 一 J2 的 置信 水 平 为 1 一 a 的 单 侧 置 信 下 限 为 


4 /1 1 
XY— ti_a(n1 上 nz 2) 1 | S. 
1 2 


如 同 求 单 正 态 总 体 的 均值 的 置信 区 间 , 在 及 中 可 以 直接 利用 t.test( ) 求 
两 方差 都 未 知 但 相等 时 两 均值 差 的 置信 区 间 . 
例 5.3.2 ”在 例 5.3.1 中 , 如 果 不 知道 两 种 品种 产量 的 方差 但 已 知 两 者 相 
等 , 此 时 须 在 t .test( ) 中 指定 选项 var .equal=TRUE, 则 













































































































































































> x<-c(628,583,510,554,612,523,530,615) 
> y<-c(535,433,398,470,567,480,498,560,503,426) 
> t.test(x,y,var.equal=TRUE) 


运行 得 到 


Two Sample t-test 
data: x andy 
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t = 3.3007, df = 16, p-value = 0.004512 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
29.46961 135.28039 
sample estimates: 
mean of x mean of y 
569.375 487.000 


























可 见 , 这 两 个 品种 的 单位 面积 产量 之 差 的 置信 水 平 0.95 的 置信 区 间 为 (29.4696， 
135.2804). 





























5.3.2 ”两 方差 比 o2/o2 的 置信 区 间 


由 于 


— 1)S? 
(ma 于 X2(ma 


2 
~ = | 
o? X (nz )， 





ma 一 1)92 
), 


且 s? 与 53 相互 独立 , 故 















































2/ 2 
Ss1/01 
守 ~ PF(ni—1,n2— 1). (5-3.3) 
53/03 
所 以 , 对 给 定 的 置信 水 平 1 一 a, 1 
S52? 0o2 
P (em 1 ,722 1) < 63 。 < Pi_ap(n1 一 1 ,72 一 0) 一 ] 一 Qa, 
2 01 
经 不 等 式 变 形 即 得 o? /2 的 1 一 a 置信 区 间 














(号 1 S2 1 ) 
Sz2 Pi_a2 (nN = 1,no 1)” S2 Foap(n1 = 1,n2 = 1) ' 











其 中 互 ,(m,n) 为 自由 度 为 (m,n) 的 分 布 的 下 侧 p 分 位 数 . 

















RR 中 函数 var.test( ) 可 以 直接 用 于 求 两 正 态 总 体 方差 比 的 置信 区 间 , 其 
调用 格式 如 下 : 











var.test( ) 的 调用 格式 


var.test(x, y, ratio = 1， 





alternative = c('"two.sided", "less", "greater"), 
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conf.level = 0.95, ...) 





在 求 置信 区 间 时 , 我 们 只 需 给 出 两 个 总 体 的 样本 z,y 以 及 相应 的 置信 水 平 , 选 
项 alternative 用 于 下 一 章 的 假设 检验 . 我 们 用 下 面 的 例子 来 说 明 . 

例 5.3.3 ” 甲 、 乙 两 台 机 床 分 别 加 工 某 种 轴承 , 轴承 的 直径 分 别 服从 正 态 
分 布 N(11,0?) 和 N(12,02), 从 各 自 加 工 的 轴承 中 分 别 抽取 若干 个 轴承 测 其 直 
径 , 结果 如 表 5.2 所 示 . 试 求 两 台 机 床 加 工 的 轴承 直径 的 方差 比 o?/o2 的 0.95 置 
信 区 间 . 


















































































































































表 5.2 机床 加 工 的 轴 的 直径 数据 























总 体 样本 容量 直径 
X( 机 床 甲 ) 8 20.5 19.8 19.7 20.4 20.1 20.0 19.0 19.9 
Y( 机 床 乙 ) 7 20.7 19.8 19.5 20.8 20.4 19.6 20.2 








解 及 程序 如 下 : 





> x<-c(20.5,19.8,19.7,20.4,20.1,20.0,19.0,19.9) 
> y<-c(20.7,19.8,19.5,20.8,20.4,19.6,20.2) 


> var.test (x,y) 





运行 结 末 如 下 : 
F test to compare two variances 


data: x andy 
F = 0.7932, num df = 7, denom df = 6, p-value = 0.7608 
alternative hypothesis: true ratio of variances is not equal to 1 
95 percent confidence interval: 

0.1392675 4.0600387 
sample estimates: 
ratio of variances 

0.7931937 



































可 见 两 台 机 床 的 加 工 的 轴承 的 直行 的 方差 比 g?/o32 的 0.95 置 信 区 间 为 (0.1393 
,4.0600 ). 结果 中 sample estimates 给 出 的 是 方差 比 o2/o2 的 和 矩 估 计 
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值 0.7931937. 图 


§5.4” 单 总 体 比率 p 的 区 间 估计 








在 许多 实际 问题 中 , 我 们 经 常 要 去 估计 在 总 体 中 上 共有 某 种 特性 的 个 体 占 总 
体 的 比例 ( 率 ), 设 为 p. 例如 , 整个 学 校 中 女生 (或 男生 ) 占 全 校 人 数 的 比例 , 一 
批 产品 中 合格 产品 占 总 产品 数 的 比例 , 产品 的 不 合格 品 率 、 某 一 电视 节目 的 收 
视 率 、 对 某 项 政策 的 支持 率 等 等 , 关于 点 估计 我 们 在 第 一 节 已 经 介绍 , 这 里 介 
绍 一 种 求 p 的 近似 区 间 估 计 的 方法 . 

称 在 样本 中 具有 某 种 特征 的 个 体 占 样 本 总 数 的 比例 为 样本 比例 . 设 z 为 容 
量 为 ”的 样本 中 具有 某 种 特征 的 个 体 数量 , 则 样本 比例 为 z/m. 当 总 体 中 的 样品 
数 足 够 多 时 , z 近 似 服 从 二 项 分 布 b(n,p)( 实 际 上 它 是 超 儿 何 分 布 ), 这 时 总 体 比 
例 可 用 样本 比例 来 估计 , 即 方 = 且 为 极 大 似 然 估计 . 当 n 较 大 时 , 由 中 心 极限 
定理 知 5 具 有 渐 近 正 态 性 , 即 
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FA Nd, 


VDP(L — p/n 
1 于 n 较 大 , 所 以 可 用 z 来 代替 分 母 中 的 p, 从 而 近似 地 有 

















~ N(0,1). (5-4.1) 


DPD—p 
VBP(1— PD)/n 
这 样 由 





P(—z1_g <Z< Z1—&) =]—a 


解 不 等 式 即 得 总 体 比例 p 的 置信 度 为 1 - a 的 置信 区 间 
(B—a-sVBI -BD/m, P+a-sVi A/n) 
同 理 可 得 p 的 置信 度 为 1 ~ a 的 单 侧 置信 上 限 为 
P+ zaVB(l—D/n, 
p 的 置信 度 为 1 - a 的 单 侧 置信 下 限 为 
P— a-aVB(l—D/n. 
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和 企及 中 , 我 们 可 直 利 用 函数 prop .test( ) 对 p 进 行 估计 与 检验 , 其 调用 格式 如 




















prop.test( ) 的 调用 格式 
prop.test(x, n, p = NULL, 










alternative = c("two.sided", "less", "greater"), 


conf.level = 0.95, correct = TRUE) 






















说 明 : z 为 样本 中 具有 菜 种 特性 的 样本 数量 , n 为 样本 容量 , correct 选 项 为 是 否 
















































































做 连续 性 校正 . 根据 抽样 理论 , p 的 1 -- a 的 近似 置信 区 间 为 
1 
pty (= NO On 























其 中 f 为 抽样 比 . 由 于 假设 样本 容量 很 大 , 因此 修正 后 p 的 置信 度 为 1 一 a 的 置信 


区 间 近 似 地 为 
b+ a VL- 
它 与 刚才 用 中 心 极限 定理 推 得 的 结论 相 比 , 区 间 长 了 二, 这 是 由 于 用 连续 分 布 
去 近似 离散 分 布 ( 超 几 何 分 布 ) 引 起 的 . 
例 5.4.1 从 一 份 共 有 3042 人 的 人 名 录 中 随机 抽 200 人 人 , 发 现 38 人 的 地 址 
已 变动 , 试 以 95% 的 置信 和 度 , 估计 这 份 名 录 中 需要 修改 地 址 的 比例 . 


解 在 及 中 键入 
























































































































































> prop.test(38,200,correct=TRUE) 





得 到 如 下 的 结果 : 


1-sample proportions test with continuity correction 
data: 38 out of 200, null probability 0.5 
X-squared = 75.645, df = 1, p-value < 2.2e-16 
alternative hypothesis: true p is not equal to 0.5 
95 percent confidence interval: 
0.1394851 0.2527281 
sample estimates: 


Pp 
0.19 


SS 
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所 以 我 们 以 95% 的 置信 水 平 认为 这 份 名 录 中 需要 修改 地 址 的 比例 p 为 落 
在 (0.1395, 0.2527) 中 , 其 点 估计 为 0.19. 


如 果 不 进行 校正 ,相应 的 及 语句 为 : 





























> prop.test(38,200,correct=FALSE) 


结果 如 下 : 


1-sample proportions test without continuity correction 
data: 38 out of 200, null probability 0.5 
X-squared = 76.88, df = 1, p-value < 2.2e-16 
alternative hypothesis: true p is not equal to 0.5 
95 percent confidence interval: 
0.1416717 0.2500124 
sample estimates: 


Pp 
0.19 




















此 时 p 的 95% 置 信 区 间 为 (0.1417, 0.2500), 其 长 度 比 修正 的 缩短 了 . 图 

前 已 指出 , 样本 中 具有 某 种 特性 的 样本 数量 z 服 从 超 儿 何 分 布 , 上面 我 们 月 
正 态 分 布 来 近似 , 还 可 以 用 二 项 分 布 来 近似 超 儿 何 分 布 , 此 时 要 求 抽样 比 j 
小 . 及 中 国 数 binom.test( ) 可 以 求 其 置信 区 间 , 其 调用 格式 如 下 : 
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7 


























binom.test( ) 的 调用 格式 


binom.test(x, n, p = NULL, 





alternative = c("two.sided", "less", "greater"), 


conf.level = 0.95) 





其 含义 和 和 上面 的 函数 prop.test( ) 一 致 . 用 到 上 例 中 , 由 
> binom.test (38,200) 
得 结果 如 下 : 


Exact binomial test 
data: 38 and 200 


number of successes = 38, number of trials = 200, p-value < 2.2e-16 


5.5 两 总 体 比率 差 p1 一 po 的 区 间 估 计 S171s 








alternative hypothesis: true probability of success is not equal to 0.5 
95 percent confidence interval: 
0.1381031 0.2513315 
sample estimates: 
probability of success 
0.19 











可 见 用 二 项 分 布 近似 所 得 的 p 的 95% 置 信 区 间 为 (0.1381, 0.2513), 它 与 修正 的 
正 态 近似 方法 更 接近 . 



































85.5 ”两 总 体 比率 差 p1 - p 的 区 间 估计 


设 有 两 总 体 X 与 Y 相 互 独 立 ( 总 体 容 量 都 较 大 )， 从 中 分 别 抽 
取 ni 和 nz 个 (m1,nz 也 较 大 ) 观 察 , 结果 发 现 其 中 各 有 z1 和 zo 个 具有 某 种 特性 . 设 
总 体 X 与 Y 中 具有 上 述 待 性 的 比率 分 别 为 p1: 和 ps, 我 们 的 目的 是 要 估计 pi 一 pz， 
我 们 仅 考虑 近似 正 态 性 下 的 区 间 估 计 问 题 . 


两 个 总 体 比 例 z 和 zz 的 极 大 似 然 估计 分 别 为 记 = 至 , 疡 = 至 . 由 上 一 市 ， 
若 21 和 72 较 大 ， 则 71,PD2 近 似 地 服从 正 态 分 布 : 


a 1— a 1 一 
pI~N (m2 ,Po~N (ma) : 


a 2 
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所 以 





1 一 1 一 
Pi—p2~N (n p2, Pr — py | pa 包 】 : 
Nl N2 


标准 化 , 并 用 方 , 记 分 别 代替 pi, pz, 得 到 























ZA ( — Po) — (p1 — p2) ~ N(0,1). (5-5.1) 
Ve | B20 D2) 


这 样 由 

















P(—z1_g <Z< Z1—&) 一 工 一 QQ 


通过 不 等 式 变形 即 得 两 比例 差 pi 一 ps 的 置信 水 平 为 1 一 a 的 区 间 估 计 : 











2 Pi(l—D) poll— pb) 
一 十 ZI_a | 
(Di 一 加 ) 土生 a Y i 
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同 理 可 得 pi 一 pz 的 置信 水 平 为 1 一 a 的 单 侧 置 信 上 限 为 


D5. (1 一方 Boll 
( 一 如) 十 > on D1) | D2 D2) 
N1 To 












































D1 一 p2 的 置信 水 平 为 1 一 a 的 单 侧 下 限 为 


(D1 — D2)—z a 广 ) 2 ba) 



































例 5.5.1 据 一 项 市 场 调查 , 在 A 地 区 被 调查 的 1000 人 中 有 478 人 喜欢 
品牌 K, 在 B 地 区 被 调查 750 中 有 246 人 喜欢 品牌 K, 试 估计 两 地 区 人 们 喜欢 品 
牌 KK 比 例 差 的 95% 置 信 区 间 . 


解 可 以 利用 有 中 的 内 别 函 数 prop.test( ) 求 两 总 体 的 比例 差 的 置信 区 
间 , 及 中 运行 



























































> like<-c(478, 246) 
> people<-c(1000, 750) 
> prop.test(like, people) 


得 结果 如 下 : 


2-sample test for equality of proportions 
with continuity correction 

data: like out of people 
X-squared = 39.1394, df = 1, p-value = 3.946e-10 
alternative hypothesis: two.sided 

95 percent confidence interval: 

0.1031446 0.1968554 

sample estimates: 
prop 1 prop 2 

0.478 0.328 








可 以 看 出 A 地 区 喜欢 品牌 K 的 人 更 多 , 晶 A、B 两 地 区 喜欢 品牌 K 的 比例 之 差 
的 95% 的 置信 区 间 为 (0.1031, 0.1969). 图 




















。 同 单 样本 一 样 , 上 面 的 结果 实际 上 是 经 过 连续 性 修改 后 得 到 的 ; 
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。 由 上 面 的 公式 , 我 们 也 可 以 自己 编写 没有 修正 的 两 比例 之 间 的 区 间 估 计 























函数 ratio.ci( ): 


ratio.ci( ) 的 定义 


ratio.ci<-function(x, y, ni, n2, conf.level=0.95){ 





xbar1l=x/n1;xbar2=y/n2 
Xbar=Xbar1-Xxbar2 


alpha = 1 - conf.level 


zstar=qnorm(1-alpha/2) 
*(xbarl*(1-xbar1)/nit+xbar2*(1-xbar2)/n2) “(1/2) 


xbar +c(-zstar, +zstar) 


用 到 上 例 中 , 运行 





> ratio.ci(478,246,1000,750,conf.level=0.95) 
[1] 0.1043112 0.1956888 


因此 , 这 时 两 比例 之 差 的 95% 的 置信 区 间 为 (0.1043, 0.1957), 其 长 度 修正 
下 的 结果 略 小 了 些 











85.6 ”样本 容量 的 确定 


角 定 样本 容量 n 是 抽样 中 的 一 个 重要 问题 . 样本 容量 抽取 过 少 会 丢失 样本 
信息 , 会 导致 误差 太 大 而 不 满足 要 求 ; 若 样 本 抽取 太 多 , 虽然 各 种 信息 都 包含 
了 , 误差 也 降低 了 , 但 同时 会 增加 所 需 的 人 力 、 物 力 和 费用 开销 . 所 以 权衡 两 
者 , 我 们 要 抽取 适当 数量 的 样本 . 






















































































5.6.1 ”估计 正 态 总 体 均值 时 样本 容量 的 确定 








设 总 体 X 的 均值 为 1, 方差 为 o2, 一 般 估计 总 体 的 均值 时 , 我 们 提出 这 样 的 
精度 要 求 , 以 置信 度 1 一 a, 允许 均值 的 最 大 绝对 误差 为 d, 即 
























































P(X—h|<d)=1-a. 























下 面 考虑 总 体 X 为 正 态 (或 近似 正 态 ) 分 布 场合 , 估计 均值 /时 所 需 的 样本 容量 
我 们 分 两 种 情况 进行 讨论 
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1. 总 体 方差 c” 已 知 











令 o? = o2, 则 | 

















XX 

Le 
. [XM 

及 一 内 d 
“ 二) | 
所 以 有 
21—S00 
w= 3 ) | (5-6.1) 


耻 


在 及 中 可 以 定义 如 下 的 函数 size.norml( ) 求 样本 容 





size.norml( ) 的 定义 





size.norm1<-function(d,var,conf .level) { 


alpha = 1 - conf.level 


((qnorm(1-alpha/2)*var* (1/2))/d) “2 


例 5.6.1 某 地 区 有 10000 户 , 拟 抽 取 一 个 简单 的 样本 调查 一 个 月 的 平 
均 开支 , 要 求 置信 和 度 为 95%, 最 大 允许 误差 为 2, 根据 经 验 , 家 庭 间 开支 的 方差 
为 500, 应 抽取 多 少 户 进 行 调查 ? 
































> size.norm1(2,500,conf.level=0.95) 
[1] 480.1824 


所 以 应 该 抽取 481 户 . 
2. 总 体 方差 o? 未 知 


当 o? 未 知 时 , 由 

















流 二 全 (5-6.2) 


> 


eh 








5.6 样本 容量 的 确定 . 175 . 

















注意 到 , t1_g (mn 一 1) 的 值 是 随 自 由 度 (n 一 1) 而 变化 的 , 也 就 是 说 1_ s(n 一 1) 

的 值 原本 就 与 样本 容量 n 有 关 . 这 样 在 n 未 确定 之 前 4_s(n 一 1) 的 值 也 是 未 知 

的 . 在 这 种 情况 之 下 , 一 般 用 尝试 法 , 先 将 一 个 非常 大 的 自由 度 代入 (相当 于 

用 zj 代替 -ap 人 2 一 1) 求 出 mi, 然后 再 将 ni 代入 tg (mn 一 1) 求 出 nz, 重复 此 

法 直至 先后 两 次 所 求 得 的 n 儿 乎 相等 为 止 , 最 后 的 no 就 是 要 确定 的 样本 容量 . 
在 及 中 我 们 可 以 通过 循环 确定 样本 容量 : 































































































































































































size.norm2( ) 的 定义 





size.norm2<-function(s,alpha,d,m){ 
tO<-qt (alpha/2,m,lower .tail=FALSE) 
n0<-(tO*s/d) “2 
t1i<-gqt(alpha/2,n0,1lower.tail=FALSE) 
ni<-(ti*s/d) “2 
while(abs(n1-n0)>0.5){ 


n0<-(qt(alpha/2,n1,1lower.tail=FALSE)*s/d) “2 
ni<-(qt(alpha/2,n0,lower.tail=FALSE)*s/d) “2 
} 





说 明 : m 是 事先 给 定 的 一 个 很 大 的 数 . 

例 5.6.2 ” 某 公司 生产 了 一 批 新 产品 , 产品 总 体 服从 正 态 分 布 , 现 要 估计 
这 批 产 品 的 平均 重量 , 最 大 允许 误差 2, 样本 标准 差 s = 10, 试问 a = 0.01 下 要 
] 取 多 少 样本 ? 


解 及 中 的 程序 : 
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> size.norm2(10,0.01,2,100) 
[1] 169.6658 





也 就 是 说 在 最 大 允许 误差 为 2 的 时 候 应 抽取 170 个 样本 。 国 对 佑 计量 精度 的 要 
求 还 有 别 的 提出 方法 , 比如 要 求 均值 的 最 大 相对 误差 为 7 或 者 是 变异 系数 不 超 
过 Vc. 类似 地 , 我 们 可 以 求 出 样本 容量 的 表达 式 , 据 此 通过 及 求解 . 
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5.6.2 ”估计 比例 p 时 样本 容量 的 确定 





在 样本 容量 较 大 的 条 件 下 , 样本 比例 5 的 近似 服从 正 态 分 布 , 也 即 





DPD—p 
Vp(1 —p)/n 
在 置信 水 平 1 - a 下 , 车 允许 比例 的 最 大 绝对 误差 为 dq, 则 由 


RN i 


























a b= qd ) 二 1 
VPp(1 -p/n Vp(l -p/n | 
从 而 





由 三 (SE) zl p). (5-6.3) 


如 果 根 据 经 验 , 能 给 出 p 的 一 个 粗略 的 估计 值 或 者 知道 p 的 取 值 范围 , 问题 就 能 
解决 . ( 取 值 范围 包括 0.5 时 , 取 p = 0.5, 反之 , 取 接 近 0.5 的 值 , 这 样 我 们 可 以 得 





















































到 n 的 一 个 较为 保守 的 值 , 因为 p(1 一 p) < 1/4.) 如 果 对 p 没 有 任何 先 验 知识 时 ， 
取 p = 0.5. 
在 RR 中 我 们 这 样 实现 : 








size.bin( ) 的 定义 


size.bin<-function(d, p, conf.level=0.95) { 





alpha = 1 - conf.level 


((qnorm(1-alpha/2))/d)“2*p*(1-p) 








例 5.6.3 ” 某 市 一 所 重点 大 学 历届 毕业 生 就 业 率 为 90%, 试 估计 应 届 
业 生 就 业 率 ,要 求 估 计 误 差 不 超过 3%, 试 问 在 a = 0.05 下 要 抽取 应 届 毕 业 生 多 少 
人 ? 


解 及 中 的 程序 : 








> size.bin(0.03, 0.9, 0.95) 
[1] 384.1459 


所 以 在 a = 0.05 下 要 抽取 应 届 毕 业 生 385 人 估计 误差 不 超过 3%. 加 

















5.6 样本 容量 的 确定 . 177 . 























5.1 ee ee dd 



























































求 a, 6 的 算法 估计 值 ( 注 : 这 里 的 测量 误差 为 X; 是 指 测量 误差 在 (X; 一 1, Xi; 十 
1J) 间 的 代表 值 .) 
5.2 ”为 检验 某 自来水 消毒 设备 的 效果 , 现 从 消毒 后 的 水 中 随机 抽取 50L, 化 
验 每 升水 中 大 肠 杆菌 的 个 数 ( 假 设 1L 水 中 大 肠 杆菌 个 数 服从 泊 松 分 布 ), 其 化 验 
结果 如 下 








































































































大 肠 杆菌 数 /L | 0 1 2 3 4 5 6 
水 的 升 数 | 17 20 10 2 1 0 0 











试问 平均 每 升水 中 大 肠 杆菌 个 数 为 多 少时 , 才能 使 上 述 情况 的 概率 达到 最 大 ? 
5.3 ”已 知 某 种 木材 的 横 纹 抗 压 力 服 从 N(u oa), 现 对 十 个 试 件 作 横 纹 抗 压力 
试验 ,得 数据 如 下 (kg/cm2): 

482， 493，457，471，510，446，435，418，394，469 






































1) 求 的 置信 水 平 为 0.9%5 的 置信 区 间 ， 














2) 求 o 的 置信 水 平 为 0.90 的 置信 区 间 . 


5.4 ” 某 卷 烟 厂 生产 两 种 卷烟 A 和 B, 现 分 别 对 两 种 香烟 的 尼古丁 含量 进行 6 次 
试验 ， 结 4 果 如 下 




























































































卷 
卷烟 








若 香 烟 的 尼古丁 含量 服从 正 态 分 布 ， 





















































1) 问 两 种 卷烟 中 尼古丁 含量 的 方差 是 否 相 等 ? 
2) 试 求 两 种 香烟 的 尼古丁 平均 含量 差 的 95% 置 信 区 间 . 
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5.5 ”比较 两 个 小 麦 品 种 的 产量 , 选择 22 块 条 件 相 似 地 试验 田 , 采用 相同 的 耕 
作 方 法 做 实验 , 结果 播种 甲 品 种 的 12 块 实验 田 的 单位 面积 产量 和 播种 乙 品种 
的 12 块 实验 田 的 单位 面积 产量 分 别 为 : 






































甲 品种 | 628 583 510 554 612 523 530 615 573 603 334 564 
乙 品种 | 535 433 398 470 567 480 498 560 503 426 338 547 











假定 每 个 品种 的 单位 面积 产量 均 服 从 正 态 分 布 , 甲 品 种 产量 的 方差 为 2140, 乙 
品种 产量 的 方差 为 3250, 试 求 这 两 个 品种 平均 面积 产量 差 的 置信 水 平 为 0.95 的 
置信 上 限 和 置信 水 平 为 0.90 的 置信 下 限 . 

5.6 ”有 两 台 机 床 生 产 同一 型 号 的 滚珠 , 根据 以 往 经 验 知 , 这 两 台 机 床 生产 的 
滚珠 直径 都 服从 正 态 分 布 . 现 分 别 从 这 两 台 机 床 生产 的 滚珠 中 随机 地 抽取 7 个 
和 9 个 , 测 得 它们 的 直径 如 下 (单位 : mmm) 


















































































































































机 床 甲 | 15.2 14.5 15.5 14.8 15.1 15.6 14.7 
机 床 乙 | 15.2 15.0 14.8 15.2 15.0 14.9 15.1 14.8 15.3 











试问 机 床 乙 生产 的 滚珠 的 方差 是 否 比 机 床 甲 生产 的 滚珠 直径 的 方差 小 ? 

5.7 “ 某 公 司 对 本 公司 生产 的 两 种 自行 车 型 号 A、B 的 销售 情况 进行 了 了 解 ， 
随机 选取 了 400 人 询问 他 们 对 A、B 的 选择 , 其 中 有 224 人 喜欢 A, 试 求 顾客 中 喜 
欢 A 的 人 数 比 例 p 的 置信 水 平 为 0.99 的 区 间 估 计 . 

5.8 ” 菜 公 司 生 产 了 一 批 新 产品 , 产品 总 体 服从 正 态 分 布 , 现 要 估计 这 批 产品 
的 平均 重量 , 最 大 允许 误差 为 1, 样本 标准 差 s = 10, 试问 在 0.95 的 置信 度 下 至 
少 要 抽取 多 少 个 产品 ? 

5.9 ”根据 以 往 的 经 验 , 船 运 大 量 玻 璃 器 眶 , 损坏 率 不 超过 5%. 现 要 估计 某 船 
中 玻璃 器 严 的 损坏 率 ， 要 求 估 计 与 真 值 间 不 超过 1%, 且 置 信 度 为 0.90, 那么 要 
抽取 多 少 样本 验收 可 满足 上 述 要 求 ? 












































































































































第 六 草 ”参数 的 假设 检验 


本 章 概要 
4 假设 检验 的 基本 思想 与 检验 的 p 值 
4 正 态 总 体 均值 和 方差 的 假设 检验 
4 两 正 态 总 体 均 值 和 方差 的 比较 
4 成 对 数据 的 假设 检验 
4 比例 的 检验 与 两 比例 的 比较 























上 一 章 介 绍 了 参数 的 点 估计 与 区 间 估 计 的 构造 方法 . 统计 推断 的 另 一 重 
要 内 容 是 假设 检验 . 先 对 总 体 的 菜 个 未 知 参 数 或 总 体 的 分 布 形式 作 茶 种 假设 ， 
然后 由 抽取 的 样本 提供 的 信息 , 构造 合适 的 统计 量 , 对 所 提供 的 假设 进行 检验 ， 
以 做 出 统计 判断 是 接受 假设 还 是 拒绝 假设 , 这 类 统计 推断 问题 称 为 假设 检验 问 
题 , 前 者 称 为 参数 假设 检验 , 后 者 称 为 非 参数 假设 检验 . 我 们 在 本 章 和 第 七 章 
中 分 别 加 以 介绍 . 



















































































86.1 ”假设 检验 与 检验 的 p 值 


6.1.1 假设 检验 的 概念 与 步骤 
统计 假设 


下 面 先 通过 几 个 例子 来 说 明 什么 是 假设 检验 . 

例 6.1.1 微波炉 在 炉 门 关闭 时 的 辐射 量 是 一 个 重要 的 质量 指标 . 设 该 
指标 服从 正 态 分 布 N(n,0.1?), 均值 要 求 不 超过 0.12. 为 检查 近期 产品 的 质量 ， 
从 某 厂 生产 的 微波 炉 中 抽查 了 25 台 , 得 其 炉 门 关闭 时 辐射 量 的 均值 X = 0.13， 
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问 该 厂 生 产 的 微波 炉 炉 门 关 闭 时 畦 
本 例 是 希望 通过 样本 检验 炉 门 关闭 时 
例 6.1.2 ” 某 车 间 用 一 台 包 装机 包间 
装机 包装 出 的 盐 每 袋 净 重 X ~N(1,o?), 某 天 随机 地 抽取 9 袋 , 称 得 净重 为 490， 
























































忆 高 ? 























囊 射 量 是 否 高 于 0.12. 

















青 盐 , 额定 标准 每 袋 净 重 500g, 设 包 


























506, 508, 502, 498, 511, 510, 515, 512. 问 该 包装 机 工作 是 否 正常 ? 
本 例 是 希望 通过 样本 检验 包装 机 包装 的 盐 的 平均 重量 是 否 是 500g. 


以 上 两 个 例子 都 是 参数 的 假设 检验 . 我 们 把 施加 于 一 个 或 多 个 总 体 的 概率 
分 布 或 参数 上 的 假设 称 为 统计 假设 , 简称 假设 . 所 作 的 假设 可 以 是 真 的 , 也 可 























能 是 假 的 . 为 了 判断 一 个 统计 假设 









































,需要 作 检 验 . 我 们 把 判断 统计 假 





设 是 否 正确 的 方法 称 为 统计 假设 检验 , 简称 为 统计 检验 . 





假设 检验 的 基本 思想 

















1) 假设 检验 的 基本 思想 























无 论 是 怎样 的 假设 , 假设 检验 的 思想 是 一 样 的 , 就 是 所 谓 概率 性 质 的 反 证 
法 . 其 根据 是 实际 推断 原理 : 小 概率 事件 在 一 次 实验 中 是 几乎 不 可 能 发 
生 的 . 进一步 讲 , 要 检验 某 假设 Ho, 先 假设 Ho 正确 , 在 此 假设 下 构造 某 一 
事件 A, 它 在 本 为 正确 的 条 件 下 的 概率 很 小 , 例如 P(A|Ho) = a(= 0.05). 
现在 进行 一 次 实验 , 如 果 事 件 A 发 生 了 , 也 就 是 说 小 概率 事件 在 一 次 实验 
中 居然 发 生 了 , 这 与 实际 推断 原理 相 矛 盾 , 这 表明 “假定 Ho 为 正确 ”是 错 
误 的 , 因而 拒绝 名 0; 反之 , 如 果 小 概率 事件 没有 发 生 , 我 们 就 没有 理由 拒 
绝 万 0, 通常 就 接受 本 i. 

通常 称 “ 结 论 ” 成 立 的 假设 为 原 假设 (又 称 零 假设 ), 记 为 Ho; 与 之 对 立 的 
假设 为 备 择 假设 (又 称 对 立 假设 ), 记 为 万. 我 们 将 一 个 假设 检验 问题 简 
记 为 媚 过 卫 . 例如 , 例 6.1.1 中 的 假设 检验 问题 为 Ho : p< 0.12 < 万 : 
4 > 0.12. 


值得 注意 的 是 : 


。 小 概率 事件 在 一 次 实验 中 发 生 与 实际 推断 原理 相 了 矛盾, 这 种 矛盾 并 
不 是 形式 迪 辑 中 的 绝对 矛盾 , 因为 “小 概率 事件 在 一 次 实验 中 几乎 
是 不 会 发 生 的 ”, 并 不 意味 着 “小 概率 事件 在 一 次 实验 中 绝对 不 会 发 
生 ”. 因此 , 根据 概率 性 质 的 反 证 法 得 出 的 接受 有 或 拒绝 邱 的 决策 ， 
并 不 等 于 我 们 证 明了 原 假 设 加 正确 或 错误 , 而 只 是 根据 样本 所 提供 
的 信息 以 一 定 的 可 靠 程度 认为 加 正确 或 错误 . 
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6.1 假设 检验 与 检验 的 p 值 
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常 把 没有 把 握 不 能 轻易 
不 能 轻易 否定 的 命题 
予以 保留 





























2) 两 类 错误 


3) 


1 
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从 主观 上 讲 , 我 们 总 希望 经 
本 所 确定 的 统计 量 之 值 来 


























原 假设 与 备 择 假设 并 不 对 称 或 可 以 交换 , 它 人 
是 不 同 的 . 原 假设 与 备 择 假 设 的 建立 主要 


命题 作 原 假设 ， 


过 假设 检验 , 能 作出 正 


E 断 的 ， 


] 在 假 


设 检验 中 的 地 位 























民 据 具体 问题 
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AAA 

















的 判断 ， 








骨 
假 , 则 拒绝 五, . 


| 于 样本 














的 随机 性 



































要 犯错 误 . 因为 当 Ho 正确 
发 生 , 这 时 我 们 却 错误 ] 











时 ， 





























的 错误 , 称 


肯定 的 命题 作为 备 择 假设 , 而 把 没有 充分 理 
理由 充分 时 才 拒绝 它 


, 否则 应 


即 若 到 确实 





但 在 客观 上 , 我 们 是 根据 样 
, 在 推断 时 前 
小 概率 事件 也 有 可 能 发 生 而 非 绝 对 不 可 能 
地 否定 了 万 0. 这 种 “ 弃 真 ” 


不 锡 





之 为 第 一 类 


普 误 ; 由 上 记述 , 犯 第 一 类 错误 的 概率 为 P( 拒 绝 Ho| Ho 为 真 ) = a. 还 有 可 











能 犯 “ 取 伪 ” 的 错误 , 称 2 
J Ho. 犯 第 二 类 错误 的 





我 们 当然 希望 犯 两 基 错 误 的 概率 都 很 小 , 但 是 在 样 


到 的 ， 
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车 性 
本 书 仅 讨 论 显著 1 
检验 步骤 

先 介 绍 接收 1 
计量 W 取 某 区 域 C' 
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检验 . 





























的 值 时 ， 























区 域 C 





统计 量 W 取 某 








为 第 


成 、 拒 绝 域 的 概念 : 对 于 




















二 类 错误 , 就 是 当 邢 ， oe 但 我 们 却 接 受 
概率 为 P( 接 受 Ho| Ho 为 假 ) = 




















Ce 























我 们 拒绝 原 假设 有 则 称 











域 C 为 Ho 关于 统计 量 W 的 接受 域 . 


由 以 上 的 讨论 , 我 们 归纳 得 到 假设 检验 的 主要 步 又 : 


择 假 


提出 原 假 设 瓦 o 与 备 


腿 设 万 ; ; 





+ 











选择 检验 统计 量 W 并 确定 其 分 布 ; 























在 给 定 的 显著 性 


























算出 样本 点 对 应 的 检验 统计 量 


水 平 下 , 确定 Ho 


关于 统计 量 W 的 拒绝 域 ; 
量 的 值 ; 














判断 : 若 统 计量 的 值 落 在 拒 


人 




















绝 域 内 , 则 拒绝 万 o, 否则 接受 Hi. 


统计 假设 检验 问题 称 为 
检验 , 并 将 犯 第 一 类 错误 地 最 大 概率 a 称 为 假设 检验 的 显著 性 水 平 . 


(接受 ) 原 假设 可 , 则 称 


定时 是 办 不 


通常 把 解决 这 一 问题 的 原则 简化 成 只 对 第 一 类 错误 的 最 大 概率 a 加 
以 限制 , 而 不 考虑 犯 第 二 类 错误 地 概率 8. 这 利 





显 





个 检验 问题 <> 万 ,， 当 检验 统 
区 域 C 为 Ho 关于 
统计 量 W 的 拒绝 域 . 拒绝 域 的 边界 点 称 为 临界 点 〈 或 临界 值 ) . 
的 值 时 , 我 们 无 法 拒绝 


当 检 验 





| 
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6.1.2 ”检验 的 p 值 





定义 6.1.1 ”在 一 个 假设 检验 问题 中 , 拒绝 原 假设 可 ,的 最 小 显著 性 水 平 
称 为 检验 的 p 值 


从 定义 可 知 p 值 表示 对 原 假设 的 怀疑 程度 , 或 解释 为 首次 拒绝 原 假 设 的 概 
率 . p 值 越 小 , 表示 原 假 设 越 可 疑 ， 从 而 越 应 拒绝 原 假设 . p 值 的 具体 计算 依赖 
于 原 假设 、 统 计量 的 分 布 及 其 观测 值 . 现 有 的 统计 软件 , 包括 及 都 提供 了 检验 
的 p 值 . 

引入 检验 的 p 值 有 明显 的 好 处 . 第 一 , 它 比 较 客 观 地 避免 了 事先 确定 显 音 
性 水 平 ; 其 次 , 由 检验 的 p 值 与 人 们 心目 中 的 显著 性 水 平 a 进 行 比较 可 以 很 容易 
做 出 检验 的 结论 : 如 果 a > p, 则 在 显著 性 水 平 a 下 拒绝 到; 如 果 a < p, 则 在 显 
著 性 水 平 w 下 保留 万 0. 









































































































































































































































86.2 ” 单 正 态 总 体 参数 的 检验 








在 实际 中 , 很 多 现象 都 可 以 近似 地 用 正 态 分 布 描述 , 因此 关于 正 态 分 布 参 
数 均值 和 方差 的 检验 , 是 实际 中 常见 的 统计 问题 . 这 一 节 先 介绍 单 正 态 总 体 中 
的 假设 检验 问题 , 下 一 节 考虑 两 正 态 总 体 中 的 假设 检验 问题 . 

假设 总 体 X ~ NU o2)，X ,总 是 来 自 此 正 态 总 体 的 一 个 样本 , 也 = 
1 为 其 样本 均值 ,82 = -D1(Xi 一 束 )? 为 其 样本 方差 


人 刀 一 

























































































6.2.1 均值 /的 假设 检验 


1. 方差 o? 已 知 时 4 的 检验 : 2 检验 





设 方差 o? = 2 已 知 , 考虑 假设 检验 问题 : 
1) Ho := ko > 本 :4 Wo( 双 边 假设 检验 ) 
2) Ho :4 ho > i :> yo( 单 边 假设 检验 ) 


3) Ho :hzZ ho > Hi :< yo( 单 边 假设 检验 ) 


6.2 单 正 态 总 体 参 数 的 检验 -183 








在 /= Ho 下 可 得 


区 一 Ho 
2 一 
oo/Vn 





~ N(0,1) (6-2.1) 


对 于 检验 问题 1), 车头 偏离 uo( 或 左 或 右 ) 均 会 倾向 于 拒绝 原 假设 Ho 从 而 
接受 对 立 假设 ,所 以 此 问题 的 拒绝 域 为 
C1 一 {|2| 2 Z1_a2}. 


对 于 检验 问题 2), 若 X 大 于 no, 则 会 倾向 于 拒绝 原 假设 有 Ho, 从 而 接受 对 并 
假设 五 , 所 以 此 问题 的 拒绝 域 为 


C2 一 {ZZ > Z1_a}. 


对 于 检验 问题 3), 若 X 大 于 /no, 则 会 倾向 于 拒绝 原 假 设 Ho, 从 而 接受 对 立 
假设 五 , 所 以 此 问题 的 拒绝 域 为 


me 
RR 程序 在 读 入 数据 后 , 还 需要 : 






































。 指定 显著 性 水 平 a、 原 假设 中 的 均值 wo 和 已 知 的 总 体 标准 差 o0; 
。 按 上 式 计 算出 统计 量 Z 的 值 ; 


。 计算 p 值 . 















































设 Zoos 表 示 统 计量 Z 的 观测 值 , 则 对 于 上 述 三 个 假设 检验 问题 , 相应 的 p 值 


1) P= P(IZ| > |2o0sl) 
2) B= P(Z > Zoo 


3) P= P(Z < Zos) 




















及 中 没有 直接 的 函数 来 做 方差 已 知 时 均值 的 检验 , 需 自己 编写 . 这 里 我 们 
直接 引用 85.2.1 中 做 方差 已 知 时 均值 的 置信 区 间 的 函数 z.test( ). 
例 6.2.1 在 显著 性 水 平 a = 0.05 下 , 讨论 例 6.1.1 的 假设 检验 问题 . 


解 ”及 程序 如 下 : 
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> z.test(0.13，25，0.1，0.05，u0=0.12，alternative='"less1") 








运行 结果 为 : 


$p.value 

[1] 0.3085 

$conf .int 

[1] 0.0908 0.1692 





结论 : 因为 p 值 =0.6915> a =0.05, 故 接收 原 假设 , 认为 炉 门 关闭 时 辐射 量 没有 
偏 高 . 图 

















2. 方差 c? 未 知 时 /的 检验 : t 检 验 





设 方差 c? 未 知 . 仍 考 虑 假设 检验 问题 1)、2) 和 3), 这 时 在 / = Ho 下 可 得 : 

_ Xo 

"HV 

1 此 得 三 个 假设 检验 问题 的 拒绝 域 分 别 为 : 
C1 一 {|T| > ti_a2(n 和 1)} 





~t(n—1) (6-2.2) 




















C2 = {T > ti_an_1)} 

C3 一 {T < fotnal)} 

与 方差 已 知 的 情形 相 比 , 我 们 并 不 需要 复杂 的 编程 , 直接 利用 及 语言 
的 t.test( ) 函 数 就 可 完成 原 假设 的 检验 . t.test( ) 的 调用 格式 见 85.2.1, 这 
里 不 再 重复 . 

例 6.2.2 ”在 显著 性 水 平 a = 0.05 下 , 讨论 例 6.1.2 的 假设 检验 问题 . 












































解 及 程序 如 下 : 





> Salt<-c(490 ，506， 508, 502, 498, 511, 510, 515 ，512) 
> t.test(salt，mu=500) 
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运行 结果 为 : 


One Sample t-test 

data: salt 
t = 2.198, df = 8, p-value = 0.05919 
alternative hypothesis: true mean is not equal to 500 
95 percent confidence interval: 
499.7 511.8 
sample estimates: 
mean of x 

505.8 








结论 : 因为 p 值 =0.05919> a = 0.05, 故 接收 原 假 设 , 认为 该 包装 机 正常 . 国 

例 6.2.3 ” 己 知 某 种 水 样 中 CaCO3 的 真 值 为 20.7mg/L, 现 用 某 种 方法 习 
复 测 定 该 水 样 11 次 , CaCOs 的 含量 为 : 20.9, 20.41, 20.10, 20.00, 20.19,， 22.60， 
20.99, 20.41, 20, 23, 22. 问 用 该 法 测定 的 CaCOs 含 量 的 均值 与 真 值 有 无 显著 
差异 ? (显著 性 水 平 为 0.05) 


























ph 
























































解 及 程序 如 下 : 





> CaCo3<-c(20.9，20.41，20.10，20.00，20.19， 
22.60，20.99，20.41，20，23，22) 
> t.test(CaCo3, mu=20.7) 


运行 结果 为 : 








One Sample t-test 

data: CaCo3 
t = 0.8078, df = 10, p-value = 0.438 

alternative hypothesis: true mean is not equal to 20.7 
95 percent confidence interval: 

20.24 21.69 

sample estimates: 
mean of x 

20.96 
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结论 : 因为 p 值 二 0.3125> a = 0.05, 故 认 为 此 法 所 测定 的 水 中 CaCOs 的 含量 的 
均值 与 真 值 无 显著 差异 , 故此 法 可 信 . 图 


























6.2.2 ”方差 o? 的 检验 : x? 检 验 
考虑 假设 检验 问题 : 


1) Ho :0? =o0? > 有 i :0? 关 oo>( 双 边 假 设 检验 ) 
2) Ho : 02 <<o0? > 有 :0? > oo2( 单 边 假设 检验 ) 


3) Ho :002 >oo2e 万 :oa < oo2( 单 边 假设 检验 ) 


这 时 在 o? = co 下 可 得 : 


2 (nC—1)S? 
X 一 一 SS 
1 此 得 三 个 假设 检验 问题 的 拒绝 域 分 别 为 : 
C1 = {X° > XI a(n — 1) 或 x < x2o(n 1)} 
C2 = {xX > Xi_a(n — 1)} 
C3 = {x < xa(n— 1)} 
在 R 中 没有 直接 的 函数 来 做 x? 检 验 ， 但 85.2.2 中 编写 的 函 
数 chisq.var.test( ) 可 用 于 求 单 样本 方差 的 检验 . 
例 6.2.4 ”检查 一 批 保险 丝 , 抽出 10 根 测量 其 通过 强 电 流 熔 化 所 需 的 时 
间 ( 单 位 : 秒 ) 为 : 42, 65, 75, 78, 59, 71, 57, 68, 54, 55. 假设 熔化 所 需 时 间 服 从 
正 态 分 布 , 问 能 和 否认 为 熔化 时 间 方 差 不 超 过 80 ( 取 a = 0.05). 


解 及 程序 如 下 : 


x*(n—1) (6-2.3) 







































































> time<-c(42, 65, 75, 78, 59, 71, 57, 68, 54, 55) 


> chisq.var.test(time, 80, 0.05, alternative="less") 





运行 结果 为 : 
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[1] 


121.8 


$chi2 


[1] 


13.71 


$p.value 


[1] 


0.8668 


$conf .int 


[1] 


与 原 


57.64 406.02 





86. 3 两 正 态 总 体 参 数 的 检验 


上 市 讨论 了 单个 正 态 总 
假设 所 提供 的 总 体 参 数 作 比 较 , 这 














假设 值 , 并 对 参数 有 某 种 意 


而 限 


女生 








十 -了 上 半 
其 样 








2 
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6.3. 


1) 
2) 


3) 





体 参数 的 显著 





义 的 备 择 值 ， 








利 





性 检验 , 它 是 把 样本 统计 量 的 观察 什 
检验 要 求 我 们 事先 能 提出 
但 在 实际 工作 中 很 难 做 到 这 一 点 , 因 














制 了 这 种 方法 在 实际 











出 合 


结论 : 因为 p 值 =0.8668> a = 0.05, 故 接 收 原 假 设 , 认为 熔化 时 间 方 差 不 超 
过 
































里 的 参数 





的 应 用 .实际 中 常常 选择 两 个 样本 , 一 个 作为 处 理 ， 
一 个 作为 对 照 , 在 两 个 样本 之 间作 比较 . 


比如 , 要 比较 某 班 























男生 的 成 绩 是 否 比 


的 高 , 服用 某 种 维生素 的 人 是 否 比 不 服用 的 人 不 易 感 冒 , 或 判断 它们 之 间 
否 存 在 明显 显著 的 差异 , 等 等 . 








设 总 体 和 与 了 独立 , 和 ~ 
体 XX 的 样本 , 又 = 十 ii Xi; 为 其 样本 均值 , 5? = 


本 方差 . Yi,.- 
1 


i 
2 一 1 


nN 


为 其 样本 方 





1 均值 的 比较 : t 检 验 


设 两 正 态 总 体 的 方差 相等 , 即 o1? = o2 = ca2. 考虑 假设 检验 问题 


有 om = 42 Hi: 


Ho:u 芯 1a 二 人 万 





2 :Ha 过 Ha oH 


:0 > po2( 单 i 


:<1 J2( 单 i 


NA ai， Y~ N(12,02), A 


,Ys 是 来 自 总 体 Y 的 样本 ,了 = 工 台 *， 六 为 


差 


E 


Hi 关 J2( 双 边 假设 检验 ) 


假设 检验 ) 
假设 检验 ) 
































,Xn 是 来 自 总 
之 1(Xi 一 台 ) 为 
样本 均值 
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这 时 在 /ia = 2 下 可 得 : 
站 区 -下 一 (二 和 


1 J 
(元 十 元)52 


nNn2 





A t(n1 十 n2 一 2) (6-3.1) 











| 此 得 三 个 假设 检验 问题 的 拒绝 域 分 别 为 : 
C1 SS {|T| >- ti_a/2(n1 十 92 一 2)} 











Cs» BE {7T > t=otnitns=2)} 

Cs = {T < 一 在 -aaa 

在 及 语言 中 可 以 直接 利用 t.test( ) 函数 完成 原 假设 的 检验 . 

例 6.3.1 甲 、 乙 两 台 机 床 分 别 加 工 某 种 轴承 , 轴承 的 直径 分 别 服从 
正 态 分 布 W(Upioai 和 (paa2)， 从 各 自 加 工 的 轴承 中 分 别 抽取 若干 个 轴承 测 
其 直径 , 结果 如 表 6.1 所 示 . 设 o? = o3, 问 两 台 机 床 的 加 工 精 度 有 无 显著 差 
异 ?( 取 a = 0.05) 







































































表 6.1 机 床 加 工 的 轴 的 直径 数据 























总 体 样本 容量 直径 
(机 床 甲 ) 8 20.5 19.8 19.7 20.4 20.1 20.0 19.0 19.9 
站 (机床 乙 ) 7 20.7 19.8 19.5 20.8 20.4 19.6 20.2 








解 及 程序 如 下 : 





> Xx<-c(20.5，19.8，19.7，20.4，20.1，20.0，19.0，19.9) 
> y<-c(20.7，19.8，19.5，20.8，20.4，19.6，20.2) 
> t.test(x, y, var.equal=TRUE) 








运行 结果 为 : 


Two Sample t-test 
data: x andy 
t = -0.8548, df = 13, p-value = 0.4081 


alternative hypothesis: true difference in means is not equal to 0 
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95 percent confidence interval: 
-0.7684249 0.3327106 

sample estimates: 

mean of x mean of y 
19.92500 20.14286 























显著 差异 . 图 
6.3.2 ”方差 的 比较 : 了 检验 

考虑 假设 检验 问题 : 

1) Ho : 02? = oo2 < 万 :cl 关 02?( 双 边 假设 检验 ) 


2) Ho :oo 和 o2e 万 :ol2 > oo2( 单 边 假设 检验 ) 


3) Ho :0 >o2 > 本 :01? < oo2( 单 边 假设 检验 ) 


这 时 在 go1? = oz? 下 可 得 : 





2 
五 三 一 下 (nai 一 172 一 二 ) (6-3.2) 
22 

















1 此 得 三 个 假设 检验 问题 的 拒绝 域 分 别 为 


C1 = {Ff 之 Pi_a2(n1 和 1,no 一 1) 或 下 < Fo (ni 一 1,n2 en 1)} 








Co 一 {Ff 之 Fi_a(n1 We 1,n2 Nl 1)} 
C3 = {Ff < Fa(n1 一 | 72 一 1)} 


及 语言 中 的 var.test( ) 函 数 可 完成 两 样本 的 检验 ，var.test( ) 的 调 
用 格式 见 85.3.2. 
例 6.3.2 ”数据 同 例 6.3.1, 问 两 台 机 床 加 工 的 轴 的 直径 的 方差 是 不 是 相 


























同 ? 
解 及 程序 如 下 : 





> x<-c(20.5, 19.8, 19.7, 20.4, 20.1, 20.0, 19.0,，19.9) 
> y<-c(20.7, 19.8, 19.5, 20.8, 20.4, 19.6,，20.2) 


> var.test(x, y) 
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运行 结果 为 : 


F test to compare two variances 

data: x andy 
F = 0.7932, num df = 7, denom df = 6, p-value = 0.7608 
alternative hypothesis: true ratio of variances is not equal to 1 
95 percent confidence interval: 
0.1392675 4.0600387 
sample estimates: 
ratio of variances 

0.7931937 


结论 : 因为 p 值 =0.7608> a = 0.05, 故 接收 原 假设 , 认为 两 台 机 床 加 工 的 轴 的 直 
径 的 方差 相同 . 国 


从 本 例 也 可 知 , 例 6.3.1 中 做 方差 相同 的 假设 是 没有 问题 的 . 以 后 在 做 两样 
本 的 均值 检验 时 要 先 做 方差 齐 性 检验 ,如果 方差 相等 不 满足 , 则 t,test( ) 函 
数 中 使 用 选项 var .equal=FALSE. 方差 不 等 时 均值 检验 问题 还 没有 完全 解决 ， 
其 近似 检验 方法 请 参看 文献 中 













































































86.4 成 对 数据 的 t 检 验 


上 一 节 我 们 提 过 , 对 一 般 情况 下 的 两 样本 均值 检验 还 没有 完全 解决 . 本 节 
考虑 一 种 特殊 的 情况 : 两 样本 成 对 数据 的 1 检验 . 所 谓 成 对 数据 , 是 指 两 个 样本 
的 样本 容量 相等 , 且 两 个 样本 之 间 除 均值 之 外 没有 另 的 差异 . 例如 比较 某 一 班 
同一 单元 内 容 的 第 二 次 考试 是 否 比 第 一 次 的 高 ? 同一 个 人 在 服用 某 种 维生素 
后 是 否 比 未 服用 之 前 不 易 感冒 ? 这 就 是 成 对 数据 的 比较 检验 . 

设 Xi1,… ,XX 是 来 自 总 体 X 的 样本 , 剖 ，,… ,村 ,是 来 自 总 体 Y 的 样本 , 定义 : 
Zi = Xi— (i= 1,2,.,n), i 记 p = W120 = of 二 G2, 则 儿 , Zo2,:… ,2 为 
总 体 Z ~ N (4,o7) 的 样本 .此 时 , jn 与 1 的 检验 问题 等 价 于 的 检验 问题 . 因此 
| 单 正 态 总 体 均值 的 假设 检验 知 , 假设 检验 问题 

















































































































1) Ho := He 万 :风头 10( 双 边 假 设 检 验 ) 


2) Ho :4 ho > Hi :> Ho( 单 边 假设 检验 ) 


6.4 成 对 数据 的 t 检 验 . 191 . 





3) Ho :hzZ He i: < Ho( 单 边 假设 检验 ) 





的 拒绝 域 分 别 为 : 
C1 = {|T| > tw2(n — 1)} 





A 
os 
其 中 = Ho 下 
Z—hHo 
"Si ~ 
ZF 和 56 分别 表 示 总 体 Z2 的 样本 均值 和 样本 标准 差 . 
在 Ri 语言 中 可 以 直接 利用 t.test( ) 函 数 增加 选项 paired=TRUE 完 成 原 假 
设 的 显著 性 检验 . 下 面 通过 例子 来 说 明 具 体 的 用 法 . 
例 6.4.1 ”在 针织 品 漂白 工艺 过 程 中 , 要 考虑 温度 对 针织 品 断裂 强力 〈 主 
要 质量 指标 ) 的 影响 . 为 了 比较 70C 与 80C 的 影响 有 无 差别 , 在 这 两 个 温度 下 ， 
分 别 重复 做 了 8 次 试验 , 得 数据 如 表 6.2 所 示 ( 单 位 : N): 根据 经 验 , 温度 对 针织 





t(n— 1) (6-4.1) 


















































































































































表 6.2 温度 对 针织 品 断 列强 力 的 影响 数据 








70C 时 的 强力 | 20.5 18.8 19.8 20.9 21.5 19.5 21.0 21.2 
80C 时 的 强力 | 17.7 20.3 20.0 18.8 19.0 20.1 20.0 19.1 




















品 断裂 强度 的 波动 没有 影响 . 问 在 70'C 时 的 平均 断 黎 强力 与 80'C 时 的 平均 断裂 
强力 间 是 否 有 显著 差别 ? 假定 断裂 强力 服从 正 态 分 布 (a = 0.05) 


解 及 程序 如 下 : 


























> x<-c(20,5, 18.8; 19.8, 20.9, 21,5; 19;5, 21.0; 21:2) 
> y=e(L7.7s 20,.3, 20.0, 18,;8, 19.0, 20,.1, 20,0, 19.,.1) 
> t.test(x, y, paired=TRUE) 








运行 结果 为 


Paired t-test 
data: x andy 
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t = 1.8002, df = 7, p-value = 0.1149 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
-0.3213757 2.3713757 
sample estimates: 
mean of the differences 
1.025 





结论 : 因为 p 值 =0.1149> a = 0.05, 故 接收 原 假设 , 认为 在 70'C 时 的 平均 断裂 强 
力 与 80'C 时 的 平均 断裂 强力 间 无 显著 差别 . 国 

除了 用 t.test( ) 函 数 完 成 原 假设 的 检验 外 , 及 中 还 可 以 用 DAAG 包 中 
的 onesamp( ) 函 数 来 完成 检验 , onesamp( ) 函数 的 调用 格式 如 下 : 



































onesamp( ) 的 调用 格式 
onesamp (dset=corn, x="unsprayed", y="sprayed", xlab=NULL, 
ylab=NULL, dubious=NULL, conv=NULL, dig=2) 











说 明 : codedset 为 有 两 列 的 数据 框 或 矩阵 ; x 为 处 于 “predictor” 地 位 的 列 名 ; 
y 为 处 于 “response” 地 位 的 列 名 . 


下 面 用 onesamp( ) 函数 来 做 上 面 的 例子 . 
及 程序 如 下 : 











data.x<-c(20.5, 18.8, 19.8, 20.9, 21.5, 19.5, 21.0, 21.2) 
data.y<-c(17.7，20.3，20.0，18.8，19.0，20.1，20.0，19.1) 
z<-data.frame(data.x, data.y) 


onesamp(z, x="data.y", y="data.x") 








运行 结果 为 : 


data.x 0.941124 0.8876132 1.610457 
One Sample t-test 
data: dd 
t = 1.8002, df = 7, p-value = 0.1149 
alternative hypothesis: true mean is not equal to 0 


95 percent confidence interval: 





6.5 单 样本 比率 的 检验 .193. 





-0.3213757 2.3713757 
sample estimates: 
mean of x 
1.025 


所 得 结论 与 前 面相 同 . 


86.5 ” 单 样本 比率 的 检验 


设 Xi1, XX2,... ,XX 为 来 自 二 点 分 布 ( 贝 努 里 分 布 )binom(1,p) 的 样本 , 则 了 = 
> Xi ~ binom(n, p). 
i=1 

















6.5.1 ”比率 p 的 精确 检验 
考虑 假设 检验 问题 : 


1) 万 :pp=Dpoc 万 :D=2po( 双 边 假设 检验 ) 
2) Ho :p< po 一 > i :p> Do( 单 边 假设 检验 ) 


3) Ho :ppo 一 > Hi :p< po( 单 边 假 设 检验 ) 








基于 统计 量 = 尖 作 检验 ， 上 述 三 个 检验 问题 拒绝 域 分 别 有 如 下 形式 : 
O01 = {TT <a 或 T > c2}, cl < co; 

C2=T Ze; 

ee 


为 获得 水 平 为 a 的 检验 , 需要 定 出 各 拒绝 域 中 的 临界 值 cc ,ct cz. 下 面 仅 
以 检验 问题 2) 来 说 明 两 种 确定 临界 值 的 方法 . 











利用 二 项 分 布 来 确定 临界 值 


对 于 检验 问题 2), c 是 满足 下 式 的 最 小 整数 : 





P(r29=-5 (aa-mmsa (6-5.1) 


= 
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用 捕 分 布 来 确定 临界 值 





根据 二 项 分 布 与 分 布 之 间 的 关系 


= ni n2 po . 
> C0) (1 — po) = (2 mn) (6-5.2) 


t= 





右 端 是 自由 度 为 m,no 的 F 分 布 的 分 布 函数 在 字 了 人 一 0 -处 的 值 , na = 2c,n2 = 


2(n 一 c 十 1). 这 样 为 求 出 使 (6-5. 1) 式 成 立 的 最 小 蓝 数 半价 于 求 使 Fs(ni1,n2) > 


一 “2P0 成 立 的 最 小 整数 c. 
ni(l — po) 


Ri 语言 中 的 binom.test( ) 函 数 可 完成 原 假设 的 检验 binom.test( ) 的 
调用 格式 见 85.4. 


























6.5.2 ”比率 p 的 近似 检验 


在 样本 容量 较 大 时 , 比例 p 的 抽样 分 布 可 近似 地 服从 正 态 分 布 , 因此 我 们 可 
将 问题 转化 为 正 态 分 布 处 理 . 考虑 上 述 假设 检验 问题 , 在 p = po 条 件 下 构造 统 
计量 





















































QO ~ N(0, 1) (6-5.3) 


V po(l — po)/n 
其 中 方 = 王 . 由 此 上 述 三 个 检验 问题 的 拒绝 域 分 别 为 : 


























1) C1 = { Z| > Z1—g} 
2) Co> 二 {2 > Zi_a} 
3) Cs 一 {2 —Z1_a} 
及 语言 中 的 prop .test( ) 函 数 可 完成 原 假设 的 检验 . prop.test( ) 的 调 
用 格式 见 85.4. 
例 6.5.1 某 产 品 的 优质 品 率 一 直 保 持 在 40%, 近期 技 监 部 门 抽查 了 12 件 


产品 , 其 中 优质 品 为 5 件 , 问 在 a = 0.05 水 平 上 能 否认 为 其 优质 品 率 仍 保持 
在 40%? 









































解 ” 由 于 本 例 的 样本 容量 不 大 , 不 适合 用 大 样本 的 方法 来 处 理 , 故我 们 
对 p 做 精确 检验 . RR 程序 如 下 : 














曙 
冯 








ne 


6.5 
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> binom.test(c(7, 5), p=0.4) 








运行 结果 为 : 


Exact binomial test 
data: c(7, 5) 
number of successes = 7, number of trials = 12, p-value = 0.2417 
alternative hypothesis: 
true probability of success is not equal to 0.4 

95 percent confidence interval: 
0.2766697 0.8483478 
sample estimates: 
probability of success 

0.5833333 


结论 : 因为 p 值 =0.2417> a = 0.05, 故 接 收 原 假设 , 认为 该 产品 的 优质 品 率 仍 保 
持 在 40%. 


同样 的 , 我 们 也 可 以 用 prop.test( ) 进 行 检验 . 及 程序 如 下 : 


























> prop.test(7, 12, p=0.4, correct=TRUE) 








运行 结果 为 : 


1-sample proportions test with continuity correction 
data: 7 out of 12, null probability 0.4 
X-squared = 1.0035, df = 1, p-value = 0.3165 
alternative hypothesis: true p is not equal to 0.4 
95 percent confidence interval: 
0.2859928 0.8350075 
sample estimates: 
B 
0.5833333 
Warning message: 
In prop.test(7, 12, p = 0.4, correct = TRUE) 


Chi-squared approximation may be incorrect 
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结论 : 因为 p 值 =0.3165> a = 0.05, 故 接收 原 假设 , 认为 该 产品 的 优质 
持 在 40%. 


说 明 : 当 样 本 容量 较 小 而 做 近似 检验 时 , R 输 出 的 结果 会 有 警 






































息 (warning message):Chi-squared 近 似 算法 有 可 能 不 准 . 在 及 中 , 当 样 本 容 划 


























率 仍 保 





大 于 20 时 不 会 出 现 这 样 的 警告 信息 . 通常 , 我 们 一 般 在 样本 容量 大 于 30 时 做 大 
国 


样本 近似 . 








例 6.5.2 ” 某 大 学 随机 调查 120 名 男 同学 , 发 现 有 35 人 喜欢 看 武侠 小 说 ， 


























问 可 否认 为 该 大 学 有 四 分 之 一 的 男 同学 喜欢 看 武侠 小 说 ?( 取 a = 0.05) 
解 及 程序 如 下 : 








> prop.test(35, 120, p=0.25, conf.level=0.975, correct=TRUE) 








运行 结果 为 : 


1-sample proportions test with continuity correction 
data: 35 out of 120, null probability 0.25 
X-squared = 0.9, df = 1, p-value = 0.3428 
alternative hypothesis: true p is not equal to 0.25 
97.5 percent confidence interval: 
0.2049114 0.3958969 
sample estimates: 


Pp 
0.2916667 


结论 : 因为 p 值 =0.3428> a = 0.05, 故 接收 原 假设 , 认为 该 大 学 有 四 分 之 一 的 男 




















同学 喜欢 看 武侠 小 说 . 


86.6 ”两 样本 比率 的 检验 





设 有 两 总 体 X 与 Y 相 互 独 江 ( 总 ， 从 中 分 别 抽 
取舍 和 ne 个 | (Dama2 也 较 大 ) 观 察 ， 结果 发 现 其 各 有 ZX1 和 zo 个 | 具有 某 种 性 质 . 
设 总 体 X 与 了 中 具有 上 述 待 性 se 我 们 的 目的 是 要 估计 对 下 



























































面 的 假设 作出 检验 
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1) Ho : pi = pa 一 > 有 i : pi 关 p2( 双 边 假 设 检验 ) 











2) Ho :pi << pz < 一 > Hi :pi > pz( 单 边 假设 检验 ) 




















3) Ho :Di > pa 一 > Hi :pi < pz( 单 边 假 设 检 验 ) 




















85.5， 











两 个 总 体 比 例 z: 和 po 的 极 大 似 然 估计 分 别 为 P = 皇 , 训 = 至， 
若 Pi 和 ma 较 大 , 则 方 , 思 近 似 地 服从 正 态 分 布 : 


二 ] 一 本 1 一 
pI~N (me ,Po~N (m2 : 
Nl Nn 


2 








在 pi 到 Do 下 ， 有 
D1— Po 


(ni1+n2)P(1—D) 


2= ~ N(0,1), CD 








其 中 #5 = 卫生 一 2282 由 此 可 知 , 上 述 三 个 检验 问题 的 拒绝 域 分 别 为 : 


NI TN2 





下 安南 时 
2) C2 过 {2 > Zi_a} 
3) C3 一 {2 < —Z1_a} 

及 语言 中 的 prop .test( ) 函 数 可 完成 原 假 设 的 检验 

例 6.6.1 某 高 校 随机 抽取 了 102 个 男 学 生 与 135 个 女 学 生 调查 家 中 有 无 


计算 机 , 调查 结果 为 23 个 男 学 生 与 25 个 女 学 家 中 有 计算 机 . 问 在 a = 0.05 水 平 
上 , 能 否认 为 男 、 女 学 生 家 中 拥有 计算 机 的 比率 一 致 ? 


解 RR 程序 如 下 : 






























































> SuccesSs<-c(23，25) 
> total<-c(102, 135) 


> prop.test(success, total) 





运行 结果 为 : 


2-sample test for equality of proportions 
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with continuity correction 
data: success out of total 
X-squared = 0.3615, df = 1, p-value = 0.5477 
alternative hypothesis: two.sided 
95 percent confidence interval: 
-0.07256476 0.15317478 

sample estimates: 

prop 1 prop 2 
0.2254902 0.1851852 




















结论 : 因为 p 值 =0.5477> a = 0.05, 故 接收 原 假设 , 认为 该 大 学 的 男 、 女 学 生 家 

















中 拥有 计算 机 的 比率 一 致 . 
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生生 二 日 
第 六 章 习 题 

















6.1 “有 一 批 枪弹 , 出 厂 时 , 其 初速 x ~ N(950,o?) (单位 : my/s) . 经 过 较 长 时 
间 储 存 , 取 9 发 进行 测试 , 得 样本 值 (单位 : m/s) 如 下 : 914, 920, 910, 934, 953， 
940, 912, 924, 930. 据 经 验 , 枪弹 储存 后 其 初速 仍 服 从 正 态 分 布 , 且 标准 差 不 
变 , 问 是 否 可 认为 这 批 枪弹 的 初速 有 显著 降低 ?(a = 0.01) 

6.2 ”已 知 维尼 纶 纤 度 在 正常 条 件 下 服从 正 态 分 布 , 且 标 准 差 为 0.048. 从 某 天 
生产 的 产品 中 抽取 5 根 纤 维 , 测 得 其 纤 度 为 : 1.32, 1.55, 1.36, 1.40, 1.1, 问 这 天 
抽取 的 维尼 纶 纤 度 的 总 体 标准 差 是 否 正 常 ?(a = 0.05) 

6.3 下面 给 出 两 种 型 号 的 计算 器 充电 以 后 所 能 使 用 的 时 间 ( 单 位 :小 时 ) 的 观 
测 值 








































































































































































































型 号 A | 5.5 5.6 6.3 46 53 5.0 6.2 58 5.1 5.2 5.9 
型 号 B | 3.8 43 42 49 45 5.2 48 45 3.9 3.7 3.6 2.9. 


设 两 样本 独立 且 数 据 所 属 的 两 个 总 体 的 密度 函数 至 多 差 一 个 平移 量 . 试问 能 否 
认为 型 号 A 的 计算 器 平均 使 用 时 间 比 型 号 B 来 得 长 ?(a = 0.01) 
6.4 ， 测 得 两 批 电子 器 件 的 样本 的 电阻 (9 ) 为 









































A 批 (xz) | 0.140 0.138 0.143 0.142 0.144 0.137 
B 批 (y) | 0.135 0.140 0.142 0.136 0.138 0.130 


























设 这 两 批 嚣 材 的 电阻 值 分 别 服 从 正 态 分 布 N(p,o?f) 和 N(j2,02), 且 两 样本 独 


JJ 





(1) 试 检验 两 个 总 体 的 方差 是 否 相 等 ?(a = 0.01) 
(2) 试 检 验 两 个 总 体 的 均值 是 否 相 等 ?(a = 0.05) 


6.5 ”有 人 称 某 地 成 年 人 中 大 学 毕业 生 比 例 不 低 于 30%, 为 检验 之 , 随机 调查 
该 地 15 名 成 年 人 , 发 现 有 3 名 大 学 毕业 生 , 取 a = 0.05 , 问 该 人 的 看 法 是 否 成 并 ? 












































第 七 草 ” 非 参数 的 假设 检验 


本 章 概 要 
单一 样本 的 检验 
两 样本 比较 与 检验 
4 多 样本 的 比较 与 检验 

















9 
0 














上 章 讲 的 参数 假设 检验 是 在 假设 总 体 分 布 已 知 的 情况 下 进行 的 . 但 在 实 
际 生 活 中 , 那 种 对 总 体 的 分 布 的 假定 并 不 是 能 随便 作出 的 . 数据 并 不 是 来 自 所 
假定 分 布 的 总 体 , 或 者 , 数据 根本 不 是 来 自 一 个 总 体 ; 还 有 可 能 数据 因为 种 种 
原因 被 严重 污染 . 这 样 , 在 假定 总 体 分布 已 知 的 情况 下 进行 推断 的 做 法 就 可 能 
产生 错误 甚至 灾难 性 的 结论 . 于 是 ， 人 们 希望 在 不 对 总 体 分 布 作出 假定 的 情况 
下 , 尽量 从 数据 本 身 来 获得 所 需要 的 信息 , 这 就 是 非 参 数 统计 推断 的 宗旨 . 本 
划分 别 就 单一 样本 、 两 样本 及 多 样本 的 位 置 参 数 与 尺度 参数 给 出 一 些 非 参数 
的 检验 方法 . 



























































































































































87.1 ” 单 总 体位 置 参 数 的 检验 


设 X1,X2,..., Xn 为 来 自 总 体 X 的 容量 为 n 的 样本 , 在 有 了 样本 观测 
值 zw1,22,… ,zr 之 后 ,很 自然 地 想 要 知道 它 所 代表 的 总 体 的 “中 心 "在 哪 
? 它 所 代表 的 总 体 的 分 布 是 否 与 我 们 所 希望 的 分 布 一 样 ? 这 些 问 题 中 不 涉 
及 分 布 具体 形式 的 假定 , 因此 属于 非 参数 的 假设 检验 问题 . 我 们 先 考 虑 前 一 问 
题 , 分 别 介绍 两 常用 的 中 位 数 符号 检验 和 对 称 中 心 的 Wilcoxon 符 号 秩 检验 , 后 
面 一 节 再 介绍 分 布 的 拟 合 优 度 检验 



















































































7.1 单 总 体位 置 参数 的 检验 . 201 . 





7.1.1 ”中 位 数 的 符号 检验 
































我 们 知道 在 总 体 为 正 态 分 布 时 , 要 检验 其 均值 是 否 为 1, 是 用 检验 . 它 的 
检验 统计 量 T = 0 在 零 假设 成 立时 服从 自由 度 为 n 一 1 的 {分 布 . 但 是 , t 检 验 
并 不 稳健 , 在 不 知道 总 体 分布 时 , 特别 是 在 小 样本 场合 , 运用 t 检 验 就 可 能 有 风 
险 . 这 时 就 要 考虑 使 用 非 参 数 方法 对 分 布 的 中 心 进行 检验 ， 如 本 小 节 讨 论 的 ! 
位 数 的 符号 检验 . 

这 一 小 节 使 用 总 体 和 的 中 位 数 M 作 为 分 布 中 心 , 即 M 满 足 : P(X < M) = 
P(X> MD = 了 


考虑 假设 检验 问题 : 



























































































































































1)  : M = Mo < 一 > 本 : M > Mo( 单 边 假设 检验 ) 














2)  : M = Mo 一 > Hi : M < Mo( 单 边 假设 检验 ) 














3)  : M = Mo 一 > 本 : M 关 Mo( 双 边 假 设 检验 ) 


符号 检验 的 检验 统计 量 为 : 








+ 一 # {Xi;: Xi— Mo > 0,i=1,2,...,n} (7-1.1) 























中 # 表 示 计 数 , 即 5+ 是 集合 G 中 的 元 素 的 个 数 , 其 中 G 是 使 得 X; 一 M > 0 成 
立 的 Xi(i = 1,2,:… St 也 可 以 等 价 地 表示 为 : 























于 
































一 1, Xi;— Mo>0 ; 
S* := Ui, Ui ’ 、 ” ,一 1 2 ,Nn 7-1.2 
2 | 0， 其 它 C1 
1 上 面 的 假设 可 知 : 
i 二 
b(n, 3 








此 上 述 三 个 假设 检验 问题 的 拒绝 域 分 别 为 : 
O01 = {5S+ > 0}, 其 中 C=inf{C*: (1)"» (<a 
i=O 





























D 
Co = {8+ < D}, 其 中 D = sup{D* : (#)" 7 () < a) 


i=0 
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Cs = {S+ > C 或 9+ < D}, 其 中 C, D 满 足 : 


cc > 的 下 =n-_0 (7-1.3) 


注 : 在 实际 问题 中 可 能 有 某 一 些 观察 值 x 正好 等 于 Mo, 一 般 采 用 的 方法 是 将 这 
些 正好 等 于 Mo 的 观察 值 舍 去， 并 相应 地 减少 样本 容量 的 ” 值 . 


另外 , 因为 PE(S+) = 了 ,Var(S+) = 了 所 以 当 n 比 较 大 时 , 有 






































































































































7-1.4 
~ N(0,1 -1. 
= (7-14) 
办 为 正 态 分 布 是 连续 性 的 ， 所 以 在 离散 的 二 项 分 布 近似 中 ,要 用 连续 性 修正 
最 ， 即 用 
3 
Z 二 vn/ 下 (0， 1). (7-1.5) 




















这 里 分 子 的 土 处 , 当 S+ < 3 时 取 加 号 ， 当 5” > 3 时 取 减 号 . 


在 及 中 没有 直接 的 函数 来 做 符号 检验 ,需要 编写 函数 来 做 检验 . 借助 函 
数 binom.test 国 数 ( 见 85.4)sign.test( ) 定 义 如 下 : 








sign.test( ) 的 定义 






sign.test<-function(x, m0, alpha=0.05, alter="two.sided"){ 
p<-list( ) 
n<-length (x) 








sign<-as.numeric(x>=m0) 






s<-sum(sign) 






result<-binom.test(s, n, p=0.5, alternative=alter, 






conf .level=alpha) 






p$p.value=result$p.value 
Pp 









说 明 : alter 的 取 值 为 “two.sided” 或 “greater”,“two.sided” 表 示 双 边 检验 ， 

















“greater” 表 示 单 边 检验 . 
例 7.1.1 在 某 保险 种 类 中 , 一 次 关于 2006 年 的 索赔 数额 (单位 :元 ) 的 随 
机 抽样 为 ( 按 升 容 排列 ): 




















7.1 单 总 体位 置 参 数 的 检验 





:203 ， 





4632, 4728, 5052, 5064, 5484, 6972, 7696, 9048, 
14760, 15013, 18730,21240, 22836, 52788, 67200. 








己 知 2005 年 的 索赔 数额 的 中 位 数 为 6064 元 . 问 2006 年 索赔 的 中 位 数 与 前 一 年 是 














否 有 所 变化 ? (a = 0.05) 








解 RR 程序 如 下 : 





> insure<-c(4632，4728，5052，5064，5484，6972，7696 ，9048 ， 
14760，15013，18730，21240，22836，52788，67200) 


> sign.test(insure,6064) 





运行 结果 为 : 


$p .value 
[1] 0.3017578 























结论 : 因为 p 值 =0.3017578> a = 0.05, 故 接收 原 假设 , 认为 2006 年 索赔 的 中 位 


数 与 前 一 年 没有 发 生变 化 . 





7.1.2 ”Wilcoxon 符 号 秩 检 验 

















符号 检验 利用 了 观察 值 和 原 假设 的 中 心 位 置 之 差 的 符号 来 进行 检验 , 但 是 
































它 并 没有 利用 这 些 差 的 大 小 (体现 于 差 的 绝对 值 的 大 小 ) 所 包含 的 信息 














也 . 不 同 的 


符号 代表 了 在 中 心 位 置 的 哪 一 边 , 而 差 的 绝对 值 的 秩 的 大 小 代表 了 距离 中 心 的 
远近 . Wilcoxon 符 号 秩 检验 把 这 两 者 结合 起 来 , 所 以 要 比 仅 仅 利 用 符号 的 符号 









































检验 要 更 有 效 . 





Wilcoxon 符 号 秩 检验 使 用 总 体 和 的 对 称 中 心 M 作 为 分 布 中 心 , 月 
分 布 了 (x) 关于 MM 对 称 , M 满 足 : F(M 一 2)= 1 了 F(x- M),vrzeR. 
还 要 求 X 是 连续 型 的 . 











总 体式 的 
在 此 我 们 





仍 考虑 上 一 小 节 的 假设 检验 问题 . Wilcoxon 符 号 秩 检验 的 检验 统计 量 为 : 


全 于 一 > ui Ri 
i=1 


其 中 ww 的 定义 同 (7-1.2) 式 , Ri 为 |Xi| 在 样本 绝对 值 | Xi1|, |X2|,… , |X 
由 此 以 上 三 个 假设 检验 问题 的 拒绝 域 分 别 为 : 











(7-1.6) 





| 中 的 秩 . 
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Ci = {W+ > CC, 其 中 C 满 足 : C = inf{C*: P(WT+ > 0*) < a} 
Co = {Wt+ < D}, 其 中 D 满 足 : D = sup{D* : P(W+ < D*) < a} 
Cs = {W+ > C 或 5+ < DD}, 其 中 CG, D 满 足 : 











C=inf{0*:P(W+ > 0*) < 5),D=sup{D*:P(W+ < D*) < 3} 


























为 求 上 述 检 验 p 值 , 需要 知道 W+ 的 分 布 . 我 们 有 





定理 7.1.1 令 S = 3》 iwi, 则 在 总 体 的 分 布 关于 原点 0 对 称 时 , WT+ 与 S 同 
ts1 
分 布 . 


定理 7.1.2 ”在 总 体 的 分 布 关于 原点 0 对 称 时 , W+ 的 概率 分 布 为 : 


P(W+=d) = P (F wR; = 中 _ 如 (9) 





2n 


A Le ]1) (7-1.7) 




















时 中 嫩 ,(d) 表 示 从 1,2,…. ,n 这 n 个 数 中 任 取 若干 个 数 其 和 恰 为 4 的 取 法 总 数 . 


定理 7.1.3 ”在 总 体 的 分 布 关于 原点 0 对 称 时 , W+ 服 从 对 称 分 布 , 对 称 中 
心 为 0,1,2,… ,于 时 的 中 点 于 守 ， 

































































有 了 以 上 三 个 定理 , 我 们 就 可 以 计算 p 值 了 (从 略 ). 另外 , 由 于 


























E(W+) = 0 D Var(Ww’) _ n(n+ J 二 下 








故 当 n 比 较 大 时 , 有 


W+ _- Ee 1) 
ZZ= ~N 8 四 
十 1)(2m 十 了 1) 9 ee 
24 














及 中 的 函数 wilcoxon.test( ) 可 完成 原 假设 的 检验 , 调用 格式 如 下 : 


wilcoxon.test( ) 的 调用 格式 
wilcox.test(x, y=NULL, alternative=c("two.sided","less","greater"), 
mu=0, paired = FALSE, exact = NULL, correct =TRUE, 
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conf .int = FALSE, conf.level = 0.95, ...) 














说 明 : exact 表 示 是 否 算出 准确 的 p 值 ; correct 表 示 大 样本 时 是 否 做 连续 性 修 




















下 . 
例 7.1.2 ”用 Wilcoxon 检 检 对 例 7.1.1 的 数 进行 检验 . 


解 ”及 程序 如 下 : 





> insure<-c(4632，4728，5052，5064，5484，6972，7696 ，9048 ， 
14760，15013，18730，21240，22836，52788，67200) 


> wilcox.test(insure,mu=6064,conf.int = TRUE) 


运行 结果 为 : 


Wilcoxon signed rank test 
data: insure V = 101, p-value = 0.01807 alternative hypothesis: 
true mu is not equal to 6064 95 percent confidence interval: 
6840 28926 
sample estimates: (pseudo)median 
13065 








I 


甘 JJ 器 


: 因为 p 值 =0.01807< a = 0.05, 故 拒绝 原 假设 , 认为 2006 年 索赔 的 中 位 数 
年 有 变化 . 根据 95% 的 置信 区 间 , 2006 年 索赔 的 中 位 数 有 所 增加 :并 且 给 
了 一 个 ( 伪 ) 中 位 数 13065. 这 与 中 位 数 的 符号 检验 所 得 的 结果 不 同 , 说 明 
了 Wilcoxon 符 号 秩 检验 比 符号 检验 利用 了 更 多 的 信息 , 检验 应 更 有 效 . 图 
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87.2 ”分 布 的 一 致 性 检验 : X“ 检 验 

















在 给 定 一 些 数据 之 后 , 我 们 往往 会 假设 它们 来 自 某 种 分 布 , 但 是 这 种 假设 
对 不 对 呢 ? 这 一 节 我 们 讨论 这 一 问题 
考虑 假设 检验 问题 


Ho: F(x)= Fo(z) < 一 Hi: T(x) # Fol(7) 





在 随机 变量 XX 的 取 值 范围 [a, 如 (a 可 为 一 00, 5 可 为 w) 内 选取 m 一 1 个 实数 a = 
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a0 <al<a < < ami1 < am = 1, CO 将 [a,0] 分 为 m 个 小 区 间 A; = 
[Qi_1, 0i), 记 pio a Fo(ai) > Fo(ai_1) 

设 (z1,22,… ,zn) 为 来 自 总 体 F(z) 的 容量 为 n 的 一 组 样本 观测 值 , nm 为 观 
测 值 落 入 4; 的 频数 ， > ni 二 nn. 若 加 成 立 , 则 实际 频数 ni 与 理论 频数 npio 比 较 
接近 , 因此 分 布 的 拟 合 优 度 检验 可 转化 为 分 类 数据 的 实际 频数 与 理论 频数 的 一 
致 性 检验 . 下 面 的 定理 为 此 提供 了 理论 依据 . 

定理 7.2.1 (Pearson 定 理 ) 




































































1) 车 (x) 完 全 已 知 (不 带 有 未 知 参数 ), 则 当 琴 成 立时 , 统计 量 





2) 若 F(z) 至 Fo(Z,0102 ,0) 中 含有 r 个 未 知 参 数 0,02…: , 0,., 它 
们 的 极 大 似 然 估计 为 ,8,… ,6.， 令 pio = 而 (ob 6) 洲 ) 一 
Fo(ai_1,01,02,.…- ,07),1 一 1,2,.…- CAA 则 

















其 中 mm 表示 种 类 数 , r+ 表示 参数 个 数 . 








由 定理 7.2.1 知 上 述 检验 问题 的 拒绝 域 为 C = {x? > x?_,(m 一 了 D)}. 
及 中 国 数 chisq.test( ) 可 完成 原 假设 的 检验 . chisq.test( ) 的 调用 格 











chisq.test( ) 的 调用 格式 
chisq.test(x, y = NULL, correct =TRUE,p=rep(1/1ength(x) ,Length(x))， 
rescale.p = FALSE, simulate.p.value = FALSE, B = 2000) 












说 明 : z 为 向 量 或 矩阵 . 若 z 是 一 维 的 且 y 不 给 出 (y =NULL), 则 chisq.test( 

















) 函数 用 于 本 节 分 布 的 拟 和 优 度 检 验 , 这 时 是 检验 总 体 概率 是 否 与 给 定 的 p 相 
同 , p 缺 省 表示 进行 等 可 能 性 检验 ; z 与 y 同 时 给 出 时 则 进行 7.3.1 小 节 介 绍 的 列 

例 7.2.1 某 箱子 中 盛 有 10 种 球 , 现在 从 中 有 返回 地 随机 抽取 200 个 , 其 
中 第 i 种 球 共 取 得 vw 个, 数据 记录 在 表 7.1， 问 箱子 中 这 10 种 球 的 比例 是 否 一 
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样 ?(a = 0.05) 





表 7.1 10 种 球 的 数目 








种 别 7 种 别 LV; 种 别 LV/; 
1 35 5 17 9 30 
2 16 6 19 10 14 
3 15 7 11 
4 17 8 16 











解 及 程序 如 下 : 





> v<-c(35,16,15,17,17,19,11,16,30,24) 
> chisq.test(v) 





运行 结果 为 : 


Chi-squared test for given probabilities 
data: Vv 


X-squared = 24.9, df = 9, p-value = 0.003084 








结论 : 因为 p 值 =0.003084< a = 0.05, 故 拒绝 原 假设 , 认为 箱子 中 的 10 种 球 的 比 
例 不 一 样 . 图 

例 7.2.2 卢 瑟 福 和 盖 革 作 了 一 个 著名 的 实验 , 他 们 观察 了 长 为 7.5 秒 
的 时 间 间 隔 里 由 某 块 放射 物质 放出 的 到 达 某 个 计数 器 的 a 质点 数 , 共 观 察 
了 2608 次 . 表 7.2 的 第 一 列 给 出 的 是 质点 数 i, 第 二 列表 示 相 应 的 频数 n;. 试问 这 
种 分 布 规律 是 否 服从 泊 松 分 布 ?(a = 0.05) 


解 在 及 中 没有 直接 算 带 参数 的 拟 合 检验 函数 , 故 要 根据 具体 问题 自己 统 
















































































首先 计算 参数 和 的 极 大 似 然 估计 
及 程序 如 下 : 








> x<-c(0,1,2,3,4,5,6,7,8,9,10) 
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表 7.2 ”放射 物质 放出 的 a 质 点 数 与 频数 








质点 数 i ”频数 n; | 质点 数 i ”频数 n; | 质点 数 i ”频数 n; 
0 57 4 532 8 45 
1 203 5 408 9 27 
2 383 6 273 10 16 
3 525 7 239 











> y<-c(57,203,383,525,532,408,273,139,45,27,16) 
> options (digits=3) 
> likely<-function(lambda=3){ 
-sum(y*dpois(x, lambda=lambda, log=TRUE)) 
} 
> mle(likely) 





运行 结果 为 : 


Call: 
mle(minuslogl = likely) Coefficients: lambda 3.87 





























由 于 函数 chisq.test( ) 无 法 调整 因 参 数 估计 引起 的 自由 度 调 整 , 因此 需 
要 编程 计算 检验 统计 量 及 p 值 , R 程 序 如 下 : 




















> chisq.fit<-function(x, y, r){ 
options (digits=4) 
result<-list( ) 
n<-sum(y) 
prob<-dpois(x,3.87,1o0g=FALSE) 
y<-c(y,0) 
m<-length(y) 
prob<-c(prob,1-sum(prob)) 
result$chisq<-sum((y-n*prob) “2/(n*prob)) 
result$p.value<-pchisq(result$chisq,m-r-1,1lower.tail=FALSE) 


result 
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} 
> x<-c(0,1,2,3,4,5,6,7,8,9,10) 
> y<-c(57,203,383,525,532,408,273,139,45,27,16) 
> chisq.fit(x,y,1) 








运行 结果 为 : 


$chisqg 

[1] 20.55 
$p.value 
[1] 0.02442 





结论 : 因为 p 值 =0.02442< a = 0.05, 故 拒绝 原 假设 , 认为 该 分 布 规 律 不 服从 泊 
松 分 布 . 图 








87.3 ”两 总 体 的 比较 与 检验 


在 单 样本 问题 中 , 人 们 想 要 检验 的 是 总 体 的 中 心 是 否 等 于 一 个 已 知 的 值 . 
但 在 实际 问题 中 , 更 受 注意 的 往往 是 比较 两 个 总 体 的 位 置 参数 ; 比如 , 两 种 训 
练 方法 中 哪 一 种 更 出 成 绩 , 两 种 汽油 中 哪 一 种 污染 更 少 , 两 种 市 场 营 销 策略 ! 
哪 种 更 有 效 等 等 . 























































































































7.3.1 ”多 独 立 性 检验 





若 随 机 变量 X,Y 的 分 布 函 数 分 别 为 玉 (z) 和 瑟 (y), 且 联 合 分 布 为 F(zx,y)， 
则 关 与 Y 的 独立 性 归结 为 假设 检验 问题 : 





Ho: F(x,y) = P(r)P(Yy) > Hi: F(z,y) A F(Z)F2(y). 





























若 X 与 Y 为 分 类 变量 ， 其 中 XX 的 取 值 为 Xi, Xo,...,X.，Y 的 取 值 
为 六 ,也 ,...,Y， 将 XX 与 Y 的 各 种 情况 的 组 合用 一 张 + x s 列 联 表 表示 ， 
称 为 r x s 二 维 列 联 表 ， 如 表 7.3 所 示 ， 表 中 nij 表 示 n 个 随机 试验 的 结果 
中 六 取 XX; 及 Y 取 六 的 频数 ， 555_1 Dj_1mi = 多， 



























































nm 一 》_ nsi = 1,2,.….,7, 表 示 各 行 之 和 
j=1 
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表 7.3 7 x s 列 联 表 











Xi1 N11 N12 Nls Nl 
及 7 Nr1 Nr2 Trs Nr 
总 和 nl 7 2 se ns n 











nj 二 5 ny,j = 1,2,...,s, 表 示 各 列 之 和 
i 二] 


Spiy = P(X = X,Y = Y),p = P(X = Xi),p; = P(Y = 
站),%1,2,... ,7;7 二 1,2,...,s, 则 与 YY 的 独立 性 检验 就 等 价 于 下 述 检验 : 


Ho:pi;= pip VI Si<r7,1l js Hi:3(i,j),pi; # pip 








注 : 若 X 与 了 为 连续 型 随机 变量 , 这 时 将 它们 的 取 值 范围 分 成 r 个 及 s 个 互 不 
相交 的 小 区 间 , 用 miz 表 示 m 个 随机 试验 的 结果 中 “和 属于 第 ;个 小 区 间 , 了 属于 
第 k 个 小 区 间 ” 的 频数 (i = 1,2,… ,7;k = 1,2,… ,s). 这 时 可 将 了 XX 与 Y 的 独立 
性 转化 为 列 联 表 的 独立 性 检验 问题 . 


由 于 pi 的 极 大 似 然 估计 为 = nn, pj 的 极 大 似 然 估计 为 5; = nj/n, 因 
此 硅 o 成 立 , 则 pij 的 极 大 似 然 估 计 为 Bj = rin.j/n>. 从 而 关 取 Xi,Y 取 六 ( 试 
验 数 据 落 入 第 (i)j) 个 类 ) 的 理论 频数 为 n x mi/2 = nin.j/n. 由 此 构造 检验 
统计 量 








































































































NaN]? man. 
X= 和 区 ?| / 2 (7-3.1) 


可 以 证 明 在 原 假设 成 立时 , x2 近 似 服从 xz2((r 一 了)(s -1)， 
及 语言 中 函数 chisq.test( ) 可 完成 独立 性 检验 , chisq.test( ) 的 调用 
格式 见 87.2. 


例 7.3.1 表 7.4 是 对 63 个 肺癌 患者 和 由 43 人 组 成 的 对 照 组 的 调查 结果 . 
问 总 体 中 患 肺癌 是 否 与 吸烟 有 关系 ?(a = 0.05) 
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表 7.4 吸烟 与 肺 瘤 关系 的 调查 数据 














吸烟 不 吸烟 
肺癌 患者 60 3 
对 照 组 32 11 











解 及 程序 如 下 : 


> compare<-matrix(c(60,32,3,11), nr = 2， 
dimnames = list(c("cancer", "normal'"), 
cl("smoke", "Not Smoke") )) 


> chisq.test(compare, correct=TRUE) 








运行 结果 为 : 


Pearson's Chi-squared test with Yates' continuity correction 
data: compare 
X-squared = 7.93, df = 1, p-value = 0.004855 
































结论 : 因为 p 值 =0.004855< a = 0.05, 故 拒绝 原 假设 , 即 认 为 患 肺 癌 与 吸烟 有 关 
系 . 加 





7.3.2 Fisher 精确 检验 


上 述 近 似 x 检 验 要 求 2 维 列 联 表 中 只 允许 20% 以 下 的 格子 的 期 望 频 数 小 
于 5, 小 于 RB 会 给 出 警告 , 这 时 应 该 使 用 Fisher 精 确 检 验 . 下 面 仅 以 2 x 2 列 联 
表 ( 见 表 7.5) 加 以 叙述 . 


在 X 和 Y 独 立 的 原 假设 下 , 在 给 定 边 际 频 率 时 , 这 个 具体 的 列 联 表 的 条 件 
概率 只 依赖 于 四 个 值 中 的 任意 一 个 , 其 条 件 概率 为 : 





























下 

















Nn1.ln2 ln1ln 2! 





Pf{ni;} 一 i= 1;2,7 和 1,2, (7-3.2) 


) 
nlniilni2!ln21ln22! 


即 m; 服 从 超 儿 何 分 布 . 
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表 7.5 2x2 列 联 表 











Bi 也。 总 和 
A 人 1 N11 N12 Nl1. 
A> N21 7222 722. 
总 和 Nl nN.2 nN 














在 给 定 ni1 十 nail = ni 后 , 我 们 在 nui 比较 大 时 拒绝 Ho, 所 以 给 定 水 平 a, 它 
的 临界 值 C 满 足 条 件 : 


P(ni1 > C0) = 
i 之 


SC Wiln ln. non mn i)! 


ni1.ln2 ln1ln 21 

















及 语言 中 的 fisher.test( ) 函 数 可 完成 原 假设 的 检验 . fisher.test( ) 的 调 








用 格式 如 下 : 


fisher.test( ) 的 调用 格式 
fisher.test(x, y=NULL, workspace=200000, hybrid=FALSE, control=list( ) ， 





or = 1, alternative = "two.sided", conf.int = TRUE, 


conf.level = 0.95, simulate.p.value = FALSE, B = 2000) 








说 明 : 参数 vorkspace 的 值 为 整数 ， 指定 工作 空间 的 数量 ; 参数 hybrid 的 值 为 
逻辑 型 , 指定 是 否 计算 精确 的 概率 , 这 两 个 参数 只 在 维 数 高 于 2x2 的 列 联 表 中 
使 用 ; 参数 or 指定 假设 的 概率 比率 , 只 在 2x2 列 联 表 中 使 用 . 

例 7.3.2 ”数据 同 例 7.3.1, 问 总 体 中 肺癌 患者 吸烟 的 比例 是 否 比 对 照 组 
中 吸烟 的 比例 要 大 ?(a = 0.05) 


解 ”及 程序 如 下 : 













































































> Compare<-matrix(c(60,32,3,11) ,nr = 2， 
dimnames = list(c("cancer", "normal'"), 
c("smoke", "Not smoke'"))) 


> fisher.test(compare, alternative = "greater") 





运行 结果 为 : 
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Fisher's Exact Test for Count Data 

data: compare 
p-value = 0.002467 
alternative hypothesis: true odds ratio is greater than 1 
95 percent confidence interval: 

1.95 Inf 
sample estimates: 
odds ratio 

6.74691 


eS 


结论 : 因为 p 值 =0.002467< a = 0.05, 故 拒绝 原 假设 , 认为 总 体 中 肺癌 患者 吸烟 
的 比例 是 要 比 对 照 组 中 吸烟 的 比例 大 . 国 
































7.3.3 ”Wilcoxon 秩 和 检验 法 和 Mann-Whitney 检验 


Wilcoxon 秩 和 检验 法 





在 正 态 总 体 的 假定 下 , 两 样本 的 均值 检验 通常 用 t 检 验 . 检验 统计 量 


























(X—Y)— (nu— 2) 
W/ (去 十 去)52 


在 零 假 设 成 立时 服从 自由 度 为 ni + nz 一 2 的 t 分 布 . 和 单 样本 情况 一 样 , t 检 验 
并 不 稳健 , 在 不 知 总 体 分 布 时 , 使 用 用 t 检 验 可 能 有 风险 . 这 时 考虑 非 参 数 方法 : 
Wilcoxon 秩 和 检验 法 . 

此 检验 法 是 用 来 检验 两 个 样本 的 位 置 参数 关系 . 与 单 样本 的 Wilcoxon 符 号 
检验 一 样 , 它 也 充分 利用 了 样本 中 秩 的 信息 . 此 检验 需要 的 假设 : 

设 Xi,X2,...,Xm 为 来 自 连续 型 总 体 X 的 容量 为 m 的 样 本 ， 
六 ,了 3;..., 世 分别 来 自 连续 型 总 体 Y 的 容量 为 n 的 样本 ， 自 丙 和 术科 富 六 
立 . 记 MMx 为 总 体 X 的 中 位 数 , My 为 总 体 Y 的 中 位 数 . 


T= 





































































































站 












































考虑 假设 检验 问题 : 
1) Ho : Mx = My 一 > 名 : Mx > My( 单 边 假设 检验 ) 
2) Ho < Myx 2 My > Hi: Mx Re My( 单 边 力 假设 检验 ) 





3) Ho : Mx = My 一 > 本 : Mx 产 My (双边 假设 检验 ) 
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构造 检验 统计 量 的 基本 思想 是 : 把 样本 XX, XX, X,, 和 芒 , 世 ,六 , 混 
合 起 来 , 并 把 这 N 二 (m+n) 个 观测 值 从 小 到 大 排列 起 来 , 这 样 每 一 个 Y 的 观 
察 值 在 混合 排列 中 都 有 自己 的 秩 ， 令 忆 为 在 这 N 个 数 中 的 秩 , 则 这 些 秩 的 和 
为 Wy = 半 玉 ， 同 样 地 由 和 的 样本 也 可 得 到 fx, 称 Wx 或 Wy 为 蚊 1coxon 秩 
和 统计 量 , 它们 的 分 布 由 下 面 的 定理 给 出 

定理 7.3.1 ， 在原 假设 瓦 为 真 时 ,WP 的 概率 分 布 和 轩 积 概率 分 别 为 : 







































































wid 
PlWy= 胡 =P(Y_ 及 = 本 = 2 
i=1 由 
> (733) 
Pr < d= POOR < d= 于 
i=1 四 
其 中 gq = te a -mn; tmn(d) 表 示 1,2,… ,NN = (mm 十 n) 这 NN 个 数 


中 任 取 n 个 数 , 其 和 恰 为 4 的 取 法 数 . 
由 定理 ?? 可 以 给 出 以 上 三 个 假设 检验 问题 的 拒绝 域 及 p 值 ( 略 )， 


另外 , 在 样本 量 比较 大 时 , 精确 算法 的 计算 量 很 大 . 可 以 考虑 用 大 样本 近 
似 来 简化 计算 和 检验 . 可 以 证 明 在 原 假设 五 为 真 时 ， 
















































































0 2 Var(Wy) = Le 
故 当 m,n 比较 大 时 ， 
Wy Ea n(N+1) | 
pa 2 N(0,1). (7-3.4) 


/mn(N+1) 
12 


Mann-Whitney U 检 验 


与 Wilcoxon 秩 和 统计 量 等 价 的 有 Mann-Whitney U 统 计量 . 令 Wxy 为 把 所 
有 的 久 的 观察 值 和 YY 的 观察 值 做 比较 之 后 , 了 的 观察 值 大 于 X 的 观察 值 的 个 数 ， 
则 称 Wxy 为 Mann-Whitney U 统 计量 . 它 与 Wilcoxon 秩 和 统计 量 的 关系 如 下 : 


























1 1 
We Wee We i 


2 














故 可 以 根据 定理 7.3.1 给 出 Wxy 的 概率 分 布 和 累积 概率 , 从 而 可 以 对 假设 检验 
问题 给 出 拒绝 域 和 p 值 . 
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Ri 语言 中 函数 wilcoxon.test( ) 可 完成 原 假设 的 检验 , 其 调用 格式 
见 7.1.2. 


例 7.3.3 有 糖尿 病 的 和 正常 的 老鼠 重量 为 (单位 : 元) 
糖尿 病 鼠 : 42, 44, 38, 52, 48, 46, 34, 44, 38; 

















正常 老鼠 : 34, 43, 35, 33, 34, 26, 30, 31, 31, 27, 28, 27, 30, 37, 32. 
检验 这 两 组 的 体重 是 否 有 显著 不 同 ?(a = 0.05) 
解 及 程序 如 下 : 

















> diabetes<-c(42 ,44,38 ,52,48 ,46,34,44,38) 
> normal<-c(34,43,35,33,34,26,30,31,31,27,28,27,30,37,32) 


> wilcox.test(diabetes,normal,exact = FALSE, correct=FALSE) 





运行 结果 为 : 


Wilcoxon rank sum test 
data: diabetes and normal 
W = 128, p-value = 0.0003008 


alternative hypothesis: true location shift is not equal to 0 








结论 : 因为 p 值 =0.0003008< a = 0.05, 故 拒绝 原 假 设 , 认为 这 两 组 的 体重 显著 
AN 国 


7.3.4 ” Mood 检验 
























































位 置 参数 描述 了 总 体 的 位 置 , 而 描述 总 体 概率 分 布 离散 程度 的 参 
数 是 尺度 参数 ， 假定 两 独立 样本 Xi Xs,… ,XX 各, 六,… , 卫 分 别 来 
N(j,07) 和 N(jw2,02), 则 检验 Ho : co? = o2 最 常用 的 传统 的 统计 方法 是 下 检 
验 , 检验 统计 量 为 两 独立 样本 的 方差 之 比 = 5& /52. 在 零 假 设 成 立时 , 它 服 
从 自由 度 为 (m 一 1,n 一 1) 的 F 分 布 . 但 是 在 总 体 不 是 正 态 或 有 严重 污染 时 , 上 
述 的 天 检验 就 不 一 定 合 适 了 . 本 小 节 介绍 的 Mood 检 验 是 用 来 检验 两 样本 尺度 参 
数 之 间 关系 的 一 种 非 参 数 方法 . 

设 两 连续 总 体 X 与 Y 独 立 ， 样 本 Xi,Xz,… ,Xn ~ 下 (写生) 
六 ,~ 了 ( 写 呈 ), 而 且 F(0) = 寺 9 = 09s，( 若 不 相等 , 可 以 通过 
平移 来 使 它们 相等 ) 
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考虑 假设 检验 问题 : 


1) Ho :01 = 02 > Hi :0o1> 02( 单 边 假 设 检验 ) 





2) Ho :01 = oo 万 :ol < 0o2( 单 边 假设 检验 ) 


3) Ho :01 = oo > Hi :01 关 02( 双 边 假 设 检 验 ) 

















构造 检验 统计 量 的 基本 思想 为 : 把 样本 Xi, 针 2,... ,XX ,和 六 ,六 ,... ,站 泥 
合 起 来， 记 Rii,Riz,… ,Rim 为 X 的 观察 值 在 混合 样本 中 的 秩 ， 
而 R21, R22,… , Row 为 Y 的 观察 值 在 混合 样本 中 的 秩 , N = m 十 n. 对 样本 X 来 
说 , 考虑 秩 统 计量 






































-> (m,- 0 (7-3.5) 


则 以 上 三 个 假设 检验 问题 的 拒绝 域 分 别 为 : 
Ci = {MM > cj 其 中 ec 满足 : c = inf{c*: P(M zc*) < ai 
C2 = {M < dj}, 其 中 4 满足: d = sup{d* : P(M < d*) < a}; 
Cs = {M > c 或 M < 中 ), 其 中 c,d 满足 : 





























c= inf{c*: P(M > c*)< sk d= sup{d* : P(M < d*) < 3 (7-3.6) 


当 原 假设 鲁 成 立时 , 可 以 证 明 : 








E(M) Le 
Var(M) = > - 2 (7.3.7) 
故 
_ M-E(M) 
Be N(0,1). (7-3.8) 


RR 语言 中 函数 mood.test( ) 可 完成 原 假设 的 检验 , 其 调用 格式 如 下 
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mood.test( ) 的 调用 格式 


mood.test(x, y, alternative = 





c("two.sided", "less", "greater'"),...) 























例 7.3.4 ”两 个 村 农民 的 月 收入 分 别 为 (单位 : 元 ) 


A 村 : 321, 266, 256, 388, 330, 329, 303, 334, 299, 221, 365, 250, 258, 342, 
343, 298, 238, 317, 354; 








B 村 : 488, 598, 507, 428, 807, 342, 512, 350, 672, 589, 665, 549, 451, 481, 
514, 391, 366, 468. 


问 两 个 村 农民 的 月 收入 的 内 部 差异 是 否 相 同 ?(a = 0.05) 
解 及 程序 如 下 : 

















> A<-c(321，266，256，388，330，329，303，334，299， 
221，365，250，258，342，343，298，238，317，354) 

> B<-c(488，598，507，428，807，342，512，350，672， 
589，665，549，451，481，514，391，366，468) 

> diff<-median(B)-median(A) 

> A<-A+tdiff 

> mood.test(A,B) 


运行 结果 为 : 


Mood two-sample test of scale 
data: A andB 
2 = -2.4846, p-value = 0.01297 


alternative hypothesis: two.sided 








结论 : 因为 p 值 =0.01297< a = 0.05, 故 拒绝 原 假设 , 认为 这 两 个 村 的 内 部 差异 
是 不 同 的 . 图 
主 


E 意 : 因为 mood 检 验 需 要 的 假定 之 一 是 要 两 样本 的 中 位 数 相同 , 故 在 做 检验 时 
要 先 消除 两 样本 之 间 中 位 数 的 差异 , 接着 才 可 以 做 mood 检 验 . 
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87.4 ”多 总 体 的 比较 与 检验 











多 样本 问题 是 统计 中 最 常见 的 一 类 问题 . 例如 多 种 投资 方案 在 试行 后 效果 
的 比较 、 不同 机 器 在 同一 条 件 下 的 稳定 性 是 否 相同 等 等 . 本 节 就 多 样本 模型 讨 
论 位 置 参 数 与 尺度 参数 的 检验 问题 

设 个 连续 型 随机 变量 (总 体 ) 和 ,Za ,了 相互 独立 区 ~ 
下 (2 下) ,0; > 0, Xa, Xz,… ,Xin, 是 来 自 第 个 总 体 X; 的 容量 为 ni 的 样本 ， 


Oi 


k 
2%=L 

































































7.4.1 ”位 置 参 数 的 Kkruskal-Wallis 秩 和 检验 











设 01 = 02 = ... = ou 不 妨 设 为 1 (其 检验 见 下 面 二 小 节 ). 考虑 假设 检验 
问题 : 

Ho:01= 0 = = :1,02,… ,0k 不 全 相等 

构造 检验 统计 量 的 基本 思想 为 : 把 k 个 样本 混合 起 来 , 算出 所 有 数据 在 混合 
样本 中 的 秩 , 记 样本 Xij 的 秩 为 Ri(Riy 的 意义 同 87.3.4), 对 每 一 个 样本 的 观察 
值 的 秩 求 和 得 到 忆 = 3 Rij, i = 12,… ,k, 由 此 找到 它们 在 每 组 中 的 平均 

YE 

值 玉 ; = Rs 如 果 这 些 亏 很 不 一 样 , 就 可 以 怀疑 原 假设 . 









































构造 检验 统计 量 : 
12 = 
es i i RD 
12 RR? 
二 2, 元 3(N+1) (7-4.1) 





2 


k 
C= 


可 以 证 明 : 





ni(N—ni)(N+ D) 


E(R;) = ni(N + 1), Var(R;) = 3 
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从 而 
Var = MY, 
12 ee 
E(H) = i (2 (&- ) ) 
NN TD Divar(R) = kl. (7-4.2) 











当 原 假设 三 成 立时 ， 若 min{ni,n2,… nk} 一 > 二 0%0, 且 鹤 一 > 入, i= 
1,2,..., hk, Ne (0,1), 则 H ~ (ko 1). 

故 上 述 检验 问题 的 拒绝 域 C = {H > x?_。(k 一 1)}. 

RR 中 函数 kruskal .test( ) 可 完成 原 假设 的 检验 其 


kruskal.test( ) 的 调用 格式 
| kruskal.test(x, g， ...) ] 


说 明 : x 为 一 向 量 或 列表 , g 为 对 x 分 类 的 因子 , 当 x 为 列表 时 g 可 以 省 略 . 

例 7.4.1 下面 的 数据 是 游泳 、 打 篮球 、 骑 自行 车 等 三 种 不 同 的 运动 
在 30 分 钟 内 消耗 的 热量 (单位 :卡路里 ). 这 些 数据 是 否 说 明 这 三 种 运动 消耗 的 
热量 全 相等 ?(a = 0.05) 


游泳 : 306, 385, 300, 319, 320; 

















调用 格式 如 下 : 








二 





Es 





















































打 篮 球 : 311, 364, 315, 338, 398; 
骑 自 行车 : 289, 198, 201, 302, 289. 





解 ”及 程序 如 下 : 





> x<-list(swim=c(306, 385, 300,319,，320)， 
basketball=c(311, 364, 315, 338, 398)， 
bicycle=c(289，198，201，302，289)) 

> kruskal .test (x) 








运行 结果 为 : 
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Kruskal-Wallis rank Sum test 
data: xX 
Kruskal-Wallis chi-squared = 9.1564, df = 2, p-value =0.01027 


结论 : 因为 p 值 =0.01027< a = 0.05, 故 拒绝 原 假设 , 认为 这 三 种 运动 消耗 的 热 








好 ll 


不 全 相等 . 图 





7.4.2 ”尺度 参数 的 Ansari-Bradley 检 验 





设 01 = 0 = …. = 由. 考虑 假设 检验 问题 : 
HHo:0f=02=… 二 07> 1 :007,02,.… ,02 不 全 相等 
记 








Te TN+l NA+I11]? 
到 | Te | 下 
2 
一 


构造 检验 统计 量 : 





-半生 琵 1 > 6 a 二 #3 : (7-4.3) 


可 以 证 明 在 原 假设 责成 立时 , B ~ x?(k 一 1)， 从 而 上 述 检验 问题 的 拒绝 域 
为 C= {B > xi_a(k— 1)}. 
及 语言 中 函数 ansari.test( ) 可 完成 原 假设 的 检验 , 其 调用 格式 如 下 : 








ansari.test( ) 的 调用 格式 


ansari.test(x, y, alternative = c('"two.sided", "less", "greater'"), 





exact = NULL, conf.int = FALSE, conf.level = 0.95, ...) 





说 明 : x 为 一 向 量 或 列表 , g 为 对 x 分 类 的 因子 , 当 x 为 列表 时 g 可 以 省 略 . 
例 7.4.2 ”两 个 工人 加 工 的 零件 尺寸 (各 10 个 ) 为 单位 :mm): 
工人 A: 18.0, 17.1, 16.4, 16.9, 16.9, 16.7, 16.7, 17.2, 17.5, 16.9; 




















工人 B: 17.0, 16.9, 17.0, 16.9, 17.2, 17.1, 16.8, 17.1, 17.1, 17.2. 
这 个 结果 能 否 说 明 两 个 工人 的 水 平 (加 工 精 度 ) 一 致 ?(a = 0.05) 
解 及 程序 如 下 : 
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> worker.a<-c(18.0,17.1,16.4,16.9,16.9,16.7,16.7,17.2,17.5,16.9) 
> worker.b<-c(17.0,16.9,17.0,16.9,17.2,17.1,16.8,17.1,17.1,17.2) 


> ansari.test (worker.a,worker .b) 








运行 结果 为 : 


Ansari-Bradley test 
data: worker.a and worker.b 
AB = 41.5, p-value = 0.04232 
alternative hypothesis: true ratio of scales is not equal to 1 
Warning message: 
In ansari.test.default (worker.a, worker.b) 


cannot compute exact p-value with ties 


结论 : 因为 p 值 =0.04232< a = 0.05, 故 拒绝 原 假 设 , 认为 这 两 个 工人 的 水 平 不 
一 样 . 最 后 一 句 的 警告 信息 是 因为 原 数 据 中 有 结 . 其 定义 及 处 理 方法 见 附录 AA. 
图 


























7.4.3 ”尺度 参数 的 Fligner-Killeen 检 验 





该 检验 需要 的 假设 与 同 Ansari-Bradley 检 验 . 


记 b 02 ee Ox 0, Vi; [Xi; —0|,i = 1,2,.… ,hk;7 = 1,2,... ,ni. 
当 0 未 知 时 , 用 样本 中 位 数 M 代 蔡 9, 即 Vi; = |Xi; 一 M1|, 再 用 Rei; 表示 在 混合 样 
本 中 Vi; 的 秩 . 


k=2 时 , 采用 检验 统计 量 









































可 以 证 明 在 原 假设 本 成 立时 , 统计 量 W 有 Wilcoxon 分 布 ; 
k > 2 时 , 采用 检验 统计 量 








# 


k 又 
12 本 
Ko) ni (ER,— ， 
N(N+D) A ( 2 ) 


、 Rij. 可 以 证 明 在 鲍 成 立时 , 统计 量 K 有 Kruskal-Wallis 零 分 
j=1 
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布 . 
及 语言 中 函数 fligner.test( ) 可 完成 原 假 设 的 检验 , 其 调用 格式 如 下 : 


fligner.test( ) 的 调用 格式 
| fligner.test(x, g, ...) | 


说 明 : x 为 一 向 量 或 列表 , g 为 对 x 分 类 的 因子 , 当 x 为 列表 时 g 可 以 省 略 . 
例 7.4.3 ”三 名 不 同 的 运动 员 AA、B、C 同 时 在 同一 条 件 下 进行 打靶 比 
赛 ,各 打 10 发 子弹 ,他 们 打 中 的 环 数 如 下 : 
A: 8, 7, 9, 10, 9, 6, 5, 8, 10, 5; 



































B: 8, 7, 9, 6, 8, 9, 10, 7, 8, 9; 
C: 10, 10, 9, 6, 8, 3, 5, 6, 7, 4. 
问 这 三 名 运动 员 的 稳定 性 是 否 一 样 ?(a = 0.05) 








解 及 程序 如 下 : 





> x<-list(A=c(8,7,9,10,9,6,5,8,10,5), 
B=c(8,7,9,6,8,9,10,7,8,9) ， 
C=c(10,10,9,6,8,3,5,6,7,4)) 
> fligner.test (x) 





运行 结果 为 : 


Fligner-Killeen test of homogeneity of variances 
data: Xx 


Fligner-Killeen:med chi-squared = 5.1905, df = 2, p-value =0.07463 


结论 : 因为 p 值 =0.07463> a = 0.05, 故 接受 原 假 设 , 认为 这 三 名 运动 员 的 稳定 
FE 国 
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7.1 “， 某 地 区 从 事 管理 


第 七 章 习 题 









































工作 的 职员 的 月 收入 的 
地 区 从 事 管理 工作 的 20 个 妇女 组 成 的 样本 , 她 们 的 

















Pp 位 数 是 6500 元 . 现 有 一 个 该 
了 收入 如 下 : 





6100, 5300, 4900, 7100, 6400, 5700, 5200, 5100, 6800, 6200, 7000, 3900, 
5300, 6200, 6500, 6300, 6200, 5300, 5800, 6700. 


问 该 地 区 从 事 管理 工作 的 妇 


0.05) 


7.2 ”调查 某 美 发 店 上 














数量 是 否 服从 均匀 分 布 ? 











表 7.6 美发 店 1 一 6 月 份 顾客 数量 














女 的 月 收入 的 中 位 数 是 否 小 于 6500?(a = 














年 各 月 顾客 数量 ， 如 表 7.6 所 示 . 问 该 店 每 月 的 顾客 





月 份 1 
顾客 人 数 (百人 ) | 27 





2 3 4 5 6 
1l8 15 24 36 30 


举证 


150 




















7.3 ”从 某 地 区 高 中 二 年 级 学 生 中 随机 抽取 45 位 学 生 测 得 他 们 的 体重 如 
表 7.7 所 示 , 问 该 地 区 学 生 的 体重 是 否 服从 正 态 分 布 ? 


























表 7.7 高 二 年 











级 学 生体 重 ( 单 位 : 公斤 ) 








36 36 37 38 40 42 43 43 44 45 48 48 50 50 51 
52 53 54 54 56 57 57 57 58 58 58 58 58 59 60 
61 61 61 62 62 63 63 65 66 68 68 70 73 73 75 





7.4 美 


国 茶 年 总 统 选 举 前 ， 由 入 














[会 调查 总 部 抽查 黑白 种 











族 与 文 持 不 同 政党 














是 否 有 关 , 得 到 数据 如 表 7.8 所 示 , 问 不 同 种 族 与 支持 持 政党 之 间 是 否 存在 独立 
性 ?(a = 0.05) 
了 解 两 种 药物 对 治疗 某 种 疾病 的 效果 ,抽取 42 名 患者 分 别 服用 药 
物 A 和 B, 数据 如 表 所 示 ， 问 药物 的 疗效 与 服用 的 药物 是 否 相 关 ?(a = 0.05) 





7.5 为 


7.6 ”在 一 次 社会 调查 









































~ 























以 问卷 的 方式 调查 了 总 共 901 人 的 年 收入 及 对 工 


作 的 满意 程度 ， 其 中 年 收入 (A) 分 为 小 于 6000 元 、6000 ~ 15000 元 、15000 ~ 
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表 7.8 ”种 族 与 政党 的 关系 数据 
种 族 民主 党 共和 党 无 党 
白人 341 405 105 
黑 103 11 15 

















表 7.9 某 疾 病 两 种 药物 的 治疗 效果 





























疗效 
五” | 有 效 | 无 效 | 合计 
A 8 2 10 
B 34 18 32 
合计 22 20 42 














25000 元 及 超过 25000 元 4 档 . 对 工作 的 满意 程度 (B) 分 为 很 不 满意 、 较 不 满意 、 
基本 满意 和 很 满意 4 档 . 调查 结果 如 表 7.10 所 示 . 问 工作 的 满意 程度 与 年 收入 高 
低 是 否 无 关 ? (a = 0.05) 























表 7.10 工作 满意 程度 与 年 收入 列 联 表 

















很 不 满意 ” 较 不 满意 “基本 满意 ”很 满意 | 合计 

< 6000 20 24 80 82 206 
6000 ~ 15000 22 38 104 125 289 
15000 ~ 25000 13 28 81 113 235 
> 25000 7 18 54 92 171 
合计 62 108 319 412 901 









































7.7 ”股票 的 波动 程度 可 以 用 来 衡量 投资 的 风险 . 取 自 同一 年 11 月 和 12 月 的 
前 10 个 交易 日 的 股票 指数 样本 数据 , 如 下 : 


11 月 : 1149, 1169, 1152, 1183, 1173, 1169, 1130, 1152, 1120, 1171; 
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12 月 : 1116, 1147, 1135, 1125, 1184, 1125, 1192, 1174, 1164, 1180. 


问 : 





1) 这 有 





2) 这 
7.8 ”对 5 位 健康 成 年 人 的 


器 (Y) 两 种 方法 测量 , 结果 如 表 7.11 所 示 , 问 两 种 测量 方法 的 精度 


异 ?(a = 


7.9 ” 茶 是 1 
叶 都 含有 叶酸 , 它 是 一 种 维 









































丙 段 时 间 的 股票 指数 的 中 位 数 是 否 相 同 ?(a = 0.05) 











胡 段 时 间 的 股票 指数 的 波 


动 程度 是 否 




















[ 液 测 了 

















样 ?(a = 0.05) 














0.05) 








表 7.11 尿酸 浓度 的 两 种 测量 值 





量 其 中 的 尿酸 浓度 ,分别 用 手工 (X) 和 仪 





是 否 存在 差 








手工 (X) 
仪器 (Y) 


6 





4.5 


6.5 
7.2 


7 10 12 
8 9 9.8 











他 命 B. 如 今 




















疆界 上 最 为 广泛 的 一 种 饮料 , 但 是 很 少 人 知 其 营养 价值 . 





任 一 种 茶 











已 有 测定 茶叶 中 叶酸 含量 的 方法 . 为 研 








究 各 产地 的 绿茶 的 叶酸 含量 是 否 有 显著 差异 , 特 选 四 个 产地 绿茶 ， 


了 7 个 样 

















次 序 测试 其 叶酸 含量 (单位 :mg), 测试 结果 如 表 7.12 所 示 . 


问 : 


1) 四 个 产地 绿茶 的 叶酸 含量 的 均值 是 和 否 有 
2) 四 个 产地 绿茶 的 叶酸 含 



































表 7.12 ”四 个 产地 茶叶 的 叶酸 含量 
产地 | 叶酸 含量 (单位 :mg) 
人 7.9，6.2，6.6，8.6，10.1，9.6，8.9 
B |5.7, 7.5, 9.8, 6.1，8.4 
C |6.4, 7.1, 7.9, 4.5, 5.0，4.0 
D 6.8，7.5，5.0, y5.3，6.1，7.4 









































量 的 方差 是 否 有 























其 中 人 制作 








品 , B 制 作 了 5 个 样品 , C 和 DD 各 制作 了 6 个 样品 , 共有 24 个 样品 , 按 随 机 


第 八 章 ”方差 分 析 


本 章 概要 
今 单 因 子 方差 分 析 
人 双 因 子 方差 分 析 
4 协 方差 分 析 


























方差 分 析 (analysis of variance, 简写 为 ANOVA) 是 工农 业 生产 和 科学 
研究 中 分 析 试 验 数 据 的 一 种 有 效 的 统计 方法 . 引起 观测 值 不 同 (波动 ) 的 原因 主 
要 有 两 类 : 一 类 是 试验 过 程 中 随机 因素 的 干扰 或 观测 误差 所 引起 不 可 控制 的 的 
波动 , 另 一 类 则 是 由 于 试验 中 处 理 方 式 不 同 或 试验 条 件 不 同 引起 的 可 以 控制 的 
波动 . 方差 分 析 的 主要 工作 就 是 将 观测 数据 的 总 变异 (波动 ) 按 照 变异 的 原因 的 
不 同 分 解 为 因子 效应 与 试验 误差 . 并 对 其 作出 数量 分 析 ， 比 较 各 种 原因 在 总 变 
异 中 所 占 的 重要 程度 ,以 此 作为 进一步 统计 推断 的 依据 . 






































































































































88.1 ” 单 因 子 方 差分 析 


8.1.1 ”数学 模型 





设 试验 只 有 一 个 因子 (又 称 为 因素 )4 有 r 个 水 平 41, 42,.…, 4.， 现 在 
水 平 4; 下 进行 ni; 次 独立 观测 ， 得 到 观测 数据 为 Xij,j = 1,2,:… ,ni,i = 
1 2 ) 7 则 单 因 素 方差 模型 可 表示 为 












































Xi; = H+ oit et = 1,2,. ,7,7 = 1,2,. ,Ni, 
E07 > N(0,0*), 且 各 ej;; 相 互 独立 ， (8-1.1) 
> NiQi; 一 0. 
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其 中 /为 总 平均 , aq; 是 第 i 个 水 平 的 效应 , ej; 是 随机 误差 . 若 n1 = ma =…n, 称 
模型 是 平衡 的 , 否则 称 为 非 平衡 的 . 

我 们 的 目的 是 要 比较 因素 4 的 r 个 水 平 的 京 郊 是 否 有 显著 差异 , 这 可 归结 
为 检验 假设 
























































Ho :Qi = as = = 万 :aa ,ar 不 全 相等 























如 果 妃 被 拒绝 , 则 说 明 因素 4 的 各 水 平 的 效应 之 间 有 显著 的 差异 , 否则 , 差异 
不 明显 . 
按照 方差 分 析 的 思想 , 将 总 离 差 平方 和 分 解 为 二 部 分 , 即 











SST= 99P 十 994 





其 中 
ssr -DDKs -Re, RD 
i=1 j= i=1 j=1 
IIE a 一 从 ; ) 2 X; Eg - Xi 
二 了 








这 里 称 5S7 为 总 离 差 平方 和 (或 称 总 变 差 ), 它 是 所 有 数据 Xij 与 总 平均 值 XX 之 
差 的 平方 和 , 描绘 所 有 观察 数据 的 离散 程度 ; $5 为 误差 平方 和 (或 组 内 平方 
和 ), 是 对 固定 的 i, 观测 值 Xii, Xiz，… ;Xin 之 间 的 差异 大 小 的 度量 .954 为 因 
素 4 的 效应 平方 (和 或 组 间 平 方 和 ), 表示 因子 4 各 水 平 下 的 样本 均值 和 总 平均 
值 之 差 的 平方 和 . 

可 以 证 明 , 当权 成 立时 



















































































SIE 











SS 
SE nn) Mr 一) 
且 SS4 与 55g 独立 . 于 是 
| (8-1.2) 


SSE/(n 一 门 
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大 FP > Fo(r — 1,n 一 7), 则 # 
之 “接受 ” 原 假设 . 这 也 可 以 通过 检验 的 p 值 来 决定 是 接受 还 是 








说 明 : formula 是 方差 分 析 的 公式 , 在 单 因 




















EE 绝 原 假设 , 认为 





因素 A 的 7r 个 水 5 














< 有 显著 差异 , 反 











E 





局 
绝 原 假设 村 i. 


RR 中 函数 aov( ) 提 供 了 方差 分 析 的 计算 与 检验 , 其 调用 格式 为 





aov( ) 的 调 





用 格式 


aov(formula, data=NULL, projections=FALSE, 


qr=TRUE, contrasts=NULL, ...) 











数据 框 , 其 它 参见 在 线 儿 助 . 


车 





例 8.1.1 ”以 淀粉 为 原料 生产 葡萄 的 过 程 
色 的 原料 . 在 生产 酱 色 的 过 程 之 前 应 尽 可 





























为 此 对 除 杂 方法 进行 选择 . 在 实验 中 选 











试验 , 即 重复 4 次 , 结果 见 表 8.1. 


V YY YY 











素 方差 分 析 ， 














能 彻 彻 





表 8.1 不 同 除 杂 方法 的 除 杂 量 














它 表示 为 z 4, data 是 


残留 许多 糖蜜 , 可 作为 生产 


底 底 除 杂 , 以 


Wl 








保证 酱 色 质 量 . 











用 5 种 不 同 的 除 杂 方法 , 每 种 方法 做 4 次 

















除 杂 方法 A 除 杂 量 X; 均 量 驻 
41 25.6 22.2 28.0 29.8 26.4 
A, 24.4 30.0 29.0 27.5 27.7 
As 25.0 27.7 23.0 32:2 27.0 
As 28.8 28.0 31.5 25.9 28.6 
As 20.6 21:2 22.0 21.2 21.3 
解 “及 程序 为 ; 





X<-c(25.6，22.2，28.0，29.8，24.4，30.0，29.0，27.5，25.0，27.7， 
23.0，32.2，28.8，28.0，31.5，25.9，20.6，21.2，22.0，21.2) 


A<-factor(rep(1:5, each=4)) 
miscellany<-data.frame(X, A) 
aov.mis<-aov(X“A, data=miscellany) 


summary (aov .mis) 


输出 结果 为 
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Df Sum Sq Mean Sq F value Pr(>F) 
A 4 131.957 32.989 4.3061 0.01618 * 
Residuals 15 114.915 7.661 


Signif. codes: 0 '***! 0.001 '**' 0.01 '*' 0.05 '.' 0.1''1 


说 明 : 上 述 结 果 中 , Df 表示 自由 度 ; sum Sq 表示 平方 和 ; Mean Sq 表示 均 方 和 ; 
F value 表 示 了 检验 统计 量 的 值 , 即 记 比 ; Pr (>F) 表 示 检 验 的 p 值 ; A 就 是 因素 A; 
Residuals 为 残 差 

可 以 看 出 , FF = 4.3061 > 05(5 一 1,20 一 5) = 3.06, 或 者 p=0.01618<0.05， 
说 明 有 理由 拒绝 原 假设 ， ee 据 上 述 结果 可 以 填 
写 下 面 的 方差 分 析 表 : 再 通过 函数 Plot( ) 绘 图 可 直观 描述 5 种 不 同 除 杂 方法 之 












































































































































表 8.2” 除 杂 方 法 试验 的 方差 分 析 表 











方差 来 源 | 自由 度 平方 和 均 方 和 FP 比 p 值 
因素 A 4 131.957 32.989 4.3061 | 0.01618 
误差 15 114.915 7.661 

总 和 19 246.872 

















间 的 差异 , 及 中 运行 命令 


> plot (miscellany$X“miscellany$A) 





到 





导 到 图 8， 1. 从 图 形 上 也 可 以 看 出 , 5 种 除 杂 方法 产生 的 除 杂 量 有 显著 差异 , 特别 
5 种 与 前 面 的 4 种 , 而 方法 1 与 3, 方法 2 与 4 的 差异 不 明显 . 














小 贫 





8.1.2 均值 的 多 重 比较 




















进行 方差 分 析 后 发 现 各 效应 的 均值 之 间 有 显著 差异 , 此 时 只 能 知道 有 某 些 
均值 彼此 不 同 , 但 无 法 知道 哪些 均值 不 同 , 下 面 的 方法 帮助 我 们 找 出 在 进行 方 
差分 析 时 哪些 均值 是 不 同 的 . 
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图 8.1 不 同 除 杂 方法 的 差异 
多 重 t 检 验方 法 











这 种 方法 就 是 针对 因子 4 的 两 个 效应 进行 比较 , 假设 检验 为 





Ho: oi= Qj,i #7,(i,j = 1,2,.. ,7) 


检验 统计 量 为 





Xi — Xj 
4 /| MSE( 去 十 去 ) 


其 中 MSE = SSg/(n 一 7) 为 误差 的 均 方 和 , 也 是 2 的 估计 . 当 可 成 立时 , TT; ~ 
tn 一 7). 所 以 检验 的 拒绝 域 为 





Ti; = i j,i(j = 1,2,... ,7) 











C= {| > ts(n—7)}. (8-1.3) 
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说 明 : 多 重 t 检 验方 法 使 用 方便 , 但 当 多 次 重复 使 用 t 检 验 时 会 增 大 犯 第 一 类 错 
误 的 概率 , 从 而 使 得 “有 显著 差异 ”的 结论 不 一 定 可 靠 , 所 以 在 进行 较 多 次 重复 
比较 时 , 我 们 要 对 p 值 进行 调整 . 

R 软 件 中 p 值 调整 使 用 函数 p.adjust( ), 其 调用 格式 为 





























p.adjust() 的 调用 格式 
p.adjust(p, method=p.adjust .methods, n=length(p)) 





说 明 : p 是 p 值 构成 的 向 量 , method 是 修正 方法 , 包括 








e。 Holm(1979) 方 法 
e。 Hochberg(1988) 方 法 


。 Hommel(1988) 方 法 





e Bonferroni 方 法 





。 Benjamini & Hochberg, BH(1995) 方 法 


e。 Benjamini & Yekutieli, BY(2001) 方 法 





RR 中 键入 命令 


> p.adjust .methods 





得 到 调整 方法 的 列表 : 
[1] "holm" "hochberg" "hommel" "bonferroni" "BH" 
[6] BY" i fdr" "none 人 























\ 体 意义 参见 在 线 帮 助 . 

当 比 较 次 数 较 多 时 , Bonferroni 方 法 的 效果 较 好 , 所 以 在 作 多 重 t 检 验 时 
常 采 用 Bonferroni 法 对 p 进 行 调整 . 实际 上 , 它 采 用 a = a'/k 作 为 给 出 “有 无 显 
著 差异 ”的 检验 水 平 , 其 中 为 两 两 比较 的 次 数 , a 为 累积 I 类 错误 的 概率 . 
R 软 件 中 函数 pairwise.t.test( ) 可 以 得 到 多 重 比 较 的 p 值 , 其 调用 格式 






























































为 
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pairwise.t.test( ) 的 调用 格式 
pairwise.t.test(x, g, p.adjust.method=p.adjust .methods, 
pool.sd=TRUE, ...) 



















上 


说 明 : z 是 响应 变量 构成 的 向 量 , 9 是 分 组 向 量 ( 因 子 ). p.adjust .method 是 上 
面 提 到 的 调整 p 值 的 方法 ,“p.adjust.method 二 none” 表 示 不 作 任何 调整 , 默认 
值 按 Holm 方 法 调整 

例 8.1.2 ”对 例 8.1.1 作 均值 的 多 重 比 较 , 进一步 检验 

















Ho:ai;= aQ; ;253;4;5 





解 用 三 种 方法 进行 多 重 比较 : 








e。 不 对 p 作 出 调整 : 及 程序 为 
> pairwise.t.test(X, A, p.adjust .method="none") 
检验 结果 如 下 : 


data: X and A 


1 2 3 4 
0.5087 - 三 去 
0.7729 0.7069 - 
0.2893 0.6793 0.4335 - 
0.0189 0.0048 0.0104 0.0020 


owW ND 


P value adjustment method: none 








检验 的 结果 与 图 8.1 一 致 , 即 s 与 其 它 4 个 差异 明显 , 后 者 差异 不 明显 . 
e 按 缺 省 的 “holm” 对 p 值 进行 调整 : 及 程序 为 








> pairwise.t.test(X, A, p.adjust .method="holm") 
检验 结果 如 下 : 


Pairwise comparisons using t tests with pooled SD 
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data: 


1 

1.000 
1.000 
1.000 
0.132 


oO WD 


P value 


X and A 


2 3 
1.000 -— 
1.000 1.000 
0.043 0.084 


.020 


adjustment method: holm 


。 按 缺 省 的 “holm” 对 p 值 进行 调整 : 及 程序 为 





> pairwise.t.test(X, A, p.adjust.method="bonferroni") 





检验 结果 如 下 : 


data: 


1 

1.000 
1.000 
1.000 
0.189 


oOW ND 


P value 


Pairwise comparisons using t tests with pooled SD 


X and A 


2 3 
1.000 -— 
1.000 1.000 
0.048 0.104 


.020 


adjustment method: bonferroni 











从 输出 结果 可 以 看 出 , 作 调 整 后 p 值 增 大 , 在 一 定 程度 上 克服 了 多 重 t 检 验 





的 缺点 . 


8.1.3 ”同时 置信 区 间 : Tukey 法 


若 经 前 面 的 下 检验 , Ho : al = … 
应 不 全 相等 , 这 时 我 们 希望 对 效应 之 差 ai 一 oj (i 十 力作 出 置信 区 间 , 1 








一 or 被 














E 绝 了 , 则 因子 4 的 个 水 平 的 效 
































此 了 
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解 哪 一 些 效 应 不 相等 . 这 里 仅 介 绍 一 种 基于 学 生化 极 差分 布 的 TUKEY 方法 . 这 
是 J.W.Tukey(1952) 提 出 的 一 种 多 重 比 较 方 法 , 是 以 试验 错误 率 为 标准 的 , 又 称 
真正 显著 差 (honesty significient difference，HSD) 法 . 该 方法 基于 下 面 
的 定理 : 

定理 8.1.1 ” 设 X,X2 ,和 是 id 的 No2)，D = m ~ X2(mm)， 
且 U, Xi,...,Y 一 n 相 互 独立 , 则 
































max Xi—min Xi 
i i 


1) — ga ~ qn, m), 其 中 gq(n, m) 表 示 参 数 为 n,m 的 学 生化 极 差分 布 . 


2) 所 有 os 一 Qj,i 二 j 的 置信 系数 为 1 一 aw 的 同时 置信 区 间 为 



































Xi Xj; qi-a(n, m)o < Qi 二 OO < Xi 二 XX; 十 qi-a(n, m). 





对 于 平衡 的 方差 分 析 模 型 , 设 m = … = n. = n,N = nr, 由 











和 ~ NA+aia2/m) 





目 况 ,与 这 ,独立 ， 
六 名 
(N— ~ 2(0V 一 门 ， 























故 由 定理 知 , 对 一 切 i 二 j, Qi 一 oj 的 置信 系数 为 1 一 a 的 同时 置信 区 间 ( 称 
为 Turkey 区 间 ) 为 


























o 
Xi;— Xj;+t qa(T,T(n— J 


若 ni 十 mh 则 Qi 一 Qj 的 置信 系数 为 1 一 a 的 同时 置信 区 间 近 似 为 


Oo 1 1 
Xi— Xj;++tq_a(r,r(n We Pe 
i 了 


在 及 软件 中 , 函数 qtukey( ) 用 于 计算 分 位 数 , 函数 TukeyHSD( ) 用 于 计 
算 同 时 置信 区 间 , 其 调用 格式 为 



























































TukeyHSD( ) 的 调用 格式 
TukeyHSD (x, which, ordered=FALSE, conf.level=0.95...) 

















说 明 : zx 为 方差 分 析 的 对 象 , which 是 给 出 需要 计算 比较 区 间 的 因子 向 量 ， 
ordered 是 逻辑 值 , 如 果 为 "true", 则 因子 的 水 平 先 递增 排序 , 从 而 使 得 因子 间 




















差异 均 以 正 值 出 现 . conf .leve1 是 置信 水 平 . 
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例 8.1.3 ” 某 商 店 以 各 自 的 销售 方式 卖 





























丙 


量 如 表 8.3 所 示 , 试 考察 销售 方式 之 | 

















司 是 否 有 显 若 差 元. 














表 8.3 销售 方式 与 销售 量 数据 表 








上 新 型 手表 , 连续 四 天 手表 的 销 











销售 方式 销售 量 数据 
Ai 23 19 21 13 
42 24 25 28 27 
As 20 18 19 15 
As 22 25 26 23 
As 24 23 26 27 








解 首先 以 数据 框 形式 生成 数据 sales. 








> sales<-data.frame(l 


X=c(23, 19, 21, 13, 24,25, 28, 27，20,，18,， 
19, 15, 22, 25, 26, 23, 24,，23，26，27)， 
A=factor(rep(1:5, c(4, 4, 4, 4, 4))) 


) 
其 次 进行 方差 分 析 , 由 及 命令 
> summary(aov(X“A, sales)) 


4 量 
村 


Df Sum Sq Mean Sq F value 
7.98 0.001178 ** 


A 4 212.800 53.200 
Residuals 15 100.000 6.667 


5 


Signif. codes: 0 ‘***” 0.001 


可 见 不 同 的 销售 方式 有 差异 . 
































Pr (>F) 


最 后 再 求 均值 之 差 的 同时 置信 区 间 . 及 命令 为 
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> TukeyHSD(aov(X“A, sales)) 
运行 结果 为 


Tukey multiple comparisons of means 


95% family-wise confidence level 


Fit: aov(formula = X ~ A, data = sales) 


$A 

diff lwr upr p adj 
2-1 7 1.362247 12.637753 0.0120117 
3-1 -1 -6.637753 4.637753 0.9805632 
4-1 5 -0.637753 10.637753 0.0944731 
5-1 6 0.362247 11.637753 0.0344328 
3-2 -8 -13.637753 -2.362247 0.0041527 
4-2 -2 -7.637753 3.637753 0.8062057 
5-2 -1 -6.637753 4.637753 0.9805632 
4-3 6 0.362247 11.637753 0.0344328 
5-3 7 1.362247 12.637753 0.0120117 
5-4 1 -4.637753 6.637753 0.9805632 


























可 以 看 出 , 共有 10 个 两 两 比较 的 结果 , 4s - A1、A4 - 4>、45 - Az 和 As - 44 的 
差异 是 显著 的 , 其 它 两 两 比较 的 结果 均 是 不 显著 的 . 
































8.1.4 ”方差 齐 性 检验 





前 面 已 提 到 要 进行 方差 分 析 , 应 具备 以 下 三 个 条 件 : (1) 可 加 性 , (2) 独 立正 
态 性 , (3) 方 差 齐 性 . 方差 齐 性 检验 就 是 检验 数据 在 不 同 水 平 下 方差 是 否 相同 . 
最 常用 的 方法 就 是 Bartlett 检 验 和 Levene 检 验 . 





























Bartlett 检 验 











方差 齐 性 检验 就 是 检验 数据 在 不 同 水 平 下 方差 是 否 相 同 , 方差 齐 性 检验 最 
常用 的 方法 是 Bartlett 检 验 和 Levene 检 验 . 检验 问题 为 : 


























Ho: 各 因子 水 平 下 的 方差 相同 ce 一 > 本 : 各 因子 水 平 下 的 方差 不 齐 
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当 处 理 组 的 数据 较 多 时 , 令 N = 并 ”mi 





1 如 
Ss? = > 
j=1 





oy [D771 (Xi; — Xi)| 
Dn A 1) 


1 和 
7 


1 AS 1 
mS i Des | 


+ 


和 


C 








则 在 原 假 设 成 立 下 , 统计 量 








0 
人 








(N Dns = Dt Dns v=k—1l 


$= 二 





















































近似 服从 自由 度 为 (7 一 1) 的 x? 分 布 . 因此 对 于 给 定 的 显著 性 水 平 a, 若 p 值 小 
于 a, 则 拒绝 瑟 o, 即 认为 至 少 有 两 个 水 平 下 的 数据 的 方差 不 相等 ; 否则 认为 数据 
满足 方差 齐 性 的 要 求 . 

及 软件 中 , 函数 Barlett.test( ) 提 供 Bartlett 检 验 , 其 调用 格式 为 : 














Barlett .test() 调 用 格式 
bartlett.test(x, g, ...) 





bartlett.test(formula, data, subset, no.action, ...) 




















说 明 : x 是 由 数据 构成 的 向 量 或 列表 ; g 是 由 因子 构成 的 向 量 , 当 x 是 列表 时 , 此 
项 无 效 ; formula 是 方差 分 析 公 式 , data 是 数据 框 , 其 余 参 数 见 在 线 帮助 . 









































Levene 检 验 





将 原样 本 观察 值 作 离 均 差 变换 , 或 离 均 差 平方 变换 , 然后 进行 方差 分 析 , 其 
检验 结果 用 于 判断 方差 是 否 齐 性 . 














(Dd = |Xi; — Xil; (2)di; = |Xi;— mdil; (3)di; = |Xi;— Xl 














其 中 mq; 为 第 i 水 平 下 数据 的 样本 中 位 数 . 
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Levene 检 验 对 原始 数据 是 否 为 正 态 不 灵敏 , 所 以 比较 稳健 , 因此 推荐 采 
用 LEVENE 方 差 齐 性 检验 . 

R 的 程序 包 car 中 提供 了 Levene 检 验 的 函数 levene .test( ), 其 调用 格式 
为 : 


levene.test( ) 调 用 格式 
| levene.test(x, group) ] 


说 明 : x 是 由 数据 构成 的 向 量 , g 是 由 因子 构成 的 向 量 . 
例 8.1.4 对 例 8.1.3 的 数据 作 方 差 齐 性 检验 . 分 别 用 Bartlett 检 验 
和 levene 检 验 检 验方 差 的 齐 性 . 


解 先 用 Bartlett 检 验 , 程序 







































































> bartlett.test(X~"A, data=sales) 
得 检验 结果 : 


Bartlett test of homogeneity of variances 


data: XbyA 
Bartlett's K-squared = 3.7231, df = 4, p-value = 0.4448 








即 p 值 (0.4448)>0.05, 接受 原 假设 , 认为 各 处 理 组 的 数据 是 等 方差 的 . 
再 用 levene 检 验 , 程序 











> library (car) 


> levene.test(sales$X, sales$A) 





Levene's Test for Homogeneity of Variance 
Df F value Pr(>F) 

group 4 0.8182 0.5333 
15 
































即 p 值 (0.5333)>0.05, 接受 原 假设 , 认为 各 处 理 组 的 数据 满足 方差 齐 性 的 要 求 . 
因此 两 种 检验 方法 有 完全 相同 的 结果 . 图 














8.2 双 因 子 方差 


分 析 
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。 
注 : 


1) 方差 分 析 模 型 可 视 为 一 种 特殊 的 线性 模型 
线性 模型 函数 lm( ), 并 
因此 aov (formula) 等 价 于 anova(lm(formula)); 


九 章 讲 的 


公 ， 


2) 单 




















因子 方差 分 析 还 可 使 月 





























因此 方差 分 析 还 可 以 使 用 
] 削 数 anova( ) 提 取 其 中 的 方差 分 








A 


必 


并 




















ud 











函数 oneway .test( ), 若 各 水 平 下 数据 的 方差 
相等 (使 用 选项 var .equal=TRUE), 它 等 同 于 使 月 














昌 函 数 aov( ) 进 行 一 般 的 





方差 分 析 ; 若 各 水 平 下 数据 的 方差 不 相等 (使 用 选项 var .equal=FALSE)， 
则 它 使 用 Welch(1951) 的 近似 方法 进行 方差 分 析 ; 








3) 当 各 水 平 下 的 分 布 未 知 时 ， 则 采 


进行 方差 分 析 . 








对 于 





内 
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88.2 ” 双 因子 方差 分 析 


因素 的 方差 分 析 , 基本 








思想 和 方法 与 单 





条 件 仍然 是 要 满足 独立 、 正 态 、 方 差 齐 改 








E.， 所 不 同 


的 Kruskal-Wallis 秩 和 检验 














有 时 会 出 现 交 互 作用 ， 

















即 二 














讨论 无 交互 作 月 


8.2.1 


设 有 AIB 两 个 
. ,B,. 在 因 





Bi1, Bo, “ 


的 双 因 








无 交互 作用 的 方差 分 析 








因 素 ， 




















试验 得 到 观察 值 X;;,i rt 1,2,.…- 了 二 1,2,.…. ) 5) 假定 X;; a N(1ij,0°), 且 
各 X5 相 互 独立 , 则 不 考虑 交互 作用 的 两 








因素 的 不 同 水 3 
素 方 差分 析 . 








因 素 4 有 7 个 水 平 4;， 42， Ht 


因素 的 方差 分 析 相 似 , 前 提 
的 是 在 双 
交叉 搭配 对 指标 产生 影响 . 我 们 先 





, A; 











因素 方 兰 分 析 ， 

















因 素 B 有 s 个 水 








素 AB 的 每 一 个 水 平 组 合 (4;, B;) 下 进行 一 次 独立 














因素 方差 分 析 模 型 可 表示 为 


Xij; = Mit+oaith;t+ eat = 1,2,... ,7,7 = 1,2,.…: ) 3) 


E 订 个 JV(0,a2)， 


> -io = 0， 
































晶 各 <, 相互 独立 ， 
党 让 1 0;=0. 
其 中 j= 二 于 避 ;_1 py 为 总 平均 ,a 为 
素 B 的 第 个 水 平 的 效应 . 

在 给 定 显著 怕 





FE 水 平 a 下 , 考虑 如 下 假设 检验 : 





内 素 A 的 第 i 个 水 平 的 效应 , F; 为 因 
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Ho : Q1 = Q2 = 二.… 二 Qr 二 0( 因 子 4 对 指标 影响 不 显著 ) 
Hoz : Bi = 2 二 … 二 fs 二 0( 因 子 B 对 指标 影响 不 显著 ) 
































类 似 于 单 因素 方差 分 析 , 先 对 总 离 差 平方 和 5.S7 分 解 为 因素 4 的 效应 平方 
和 SS4、 因 素 B 的 效应 平方 和 SSp 及 误差 平方 和 5S.Sp, 即 


SSr = ) D0 -2 





























= > [i Xe Xt+R) + H+ Ks 一 ] 
= DD 过 二 开放 





Eo 1 测 S 

XS 
i=1 j=1 

下 

XX; = (i= 1,2,... ,7) 
j=1 

= 1 a 

从 0 (7 = 1,2, ,5) 
i=1 

可 以 证 明 : 


1) 当 Ho1 成 立时 ， 





2 wR “x (C= (1)) 





且 SS4 与 55g 独 立 , 于 是 


SSaA/(r 一 1) 
CT 





Fa = 
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2) 当 Hoz 成 并 时 ， 


SIB 





且 SSB 与 59Sp 独 立 , 于 是 


所 以 , Hoi 与 Hos 的 的 


在 R 软 件 中 , 方差 分 析 函 数 aov( ) 既 适合 于 单 因 
于 双 因 素 方差 分 析 , 其 中 方差 模型 公式 为 x ~ A + B, 加 号 表示 两 个 因素 具有 
可 加 的 . 下 面 用 一 个 例子 来 说 明 . 
原来 检验 果汁 中 含 铅 量 有 三 种 方法 A1、A。、Ahs, 现 研究 出 另 











例 8.2.1 
一 种 快速 检验 法 Ay， 





法 ) 和 B( 果 汁 品种 ) 对 果汁 的 含 铅 量 是 否 有 显著 影响 ? 





02 


SSB/(s 1) 





ZB 


CA 
CB 














~ SSg/[(r — 1)(s—1)] 


FE 绝 域 分 别 为 


~ x*(s— 1), 


~ F(s— 


1,(7—1)(s— 1)). 


{Fa > 五 _a(7 Ea 1, (7 ES 1)(s ll 1))} 
[i el 








素 方 差分 析 , 也 同样 适用 
































能 否 用 44 代 替 前 三 种 方法 , 需要 通过 实验 考察 . 观察 的 对 
象 是 果汁 , 不 同 的 果汁 当做 不 同 的 水 平 : Bi 为 苹果 , Bs 为 葡萄 汁 , Bs 为 西红柿 
汁 , B4 为 苹果 饮料 汁 ,85 桔子 计 ，B6 菠 葛 柠 檬 汁 . 现 进行 双 因 素 交 错 搭配 试验 ， 
即 用 四 种 方法 同时 检验 每 一 种 果汁 , 其 检验 结果 如 表 8.4 所 示 . 问 因素 4( 检 验方 































































































表 8.4 果汁 含 铅 比 测试 实验 数据 统计 
因素 因素 B 
A B: B, Bs B: B Bo xX; 
4 | 0.05 046 0.12 0.16 0.84 1.30 2.93 
4 | 0.08 038 040 0.10 0.92 1.57 3.45 
43 | 0.11 043 0.05 0.10 0.94 1.10 2.73 
44 | 0.11l 044 0.08 0.03 0.93 1.15 2.74 
KX; | 0.35 1.71 0.65 0.39 3.63 5.12 | X.=11.85 
解 首先 建立 数据 框 : 
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> juice<-data.frame( 

X= c(0.05, 0.46, 0.12, 0.16, 0.84, 1.30, 0.08, 0.38,，0.4, 
0.10, 0.92, 1.57, 0.11, 0.43, 0.05, 0.10, 0.94, 1.10, 
0.11，0.44，0.08，0.03，0.93，1.15) ， 

glL(4，6) ， 
gl1(6, 1, 24) 


品 
ll 











注 : 这 里 函数 gl( ) 用 来 给 出 因子 水 平 , 其 调用 格式 为 











g1( ) 的 调用 格式 
gl(n, k, length=n*k, labels=1:n, ordered=FALSA) 








说 明 : n 是 水 平 数 ，k 是 每 一 水 平 上 的 重复 次 数 ，length 是 总 观测 值 数 ， 




















ordered 指 明 各 水 平 是 否 先 排序 . 
下 面 作 双 因素 方差 分 析 , R 程 序 为 : 











> juice.aov<-aov(X“A+B, data=juice) 


> summary(juice.aov) 


分 析 结 果 为 
Df Sum Sq Mean Sq F value Pr (>F) 
A 3 0.0570 0.0190 1.6287 0.2248 
B 5 4.9022 0.9804 83.9755 2.003e-10 *** 


Residuals 15 0.1751 0.0117 


Signif. codes: 0 ‘***” 0.001 ‘**” 0.01 ‘* 0.05 ‘“.” 0.1 “” 1 























结论 : p 值 说 明 果汁 品种 (因素 B) 对 含 馈 量 有 显著 影响 , 而 没有 充分 型 
验方 法 (因素 A) 对 含 馈 量 有 显著 影响 . 


最 后 用 函数 bartlett.test( ) 分 别 对 因素 A4 和 因素 B 作 方差 的 齐 性 检验 : 


由 说 明 检 








HB 


















































> bartlett.test(X-A，data=juice) # 对 因素 A 


Bartlett test of homogeneity of variances 
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data: XbyA 
Bartlett's K-squared = 0.268, df = 3, p-value = 0.966 





> bartlett.test(X“B, data=juice) # 对 因素 B 


Bartlett test of homogeneity of variances 


data: XbyB 
Bartlett's K-squared = 17.4216, df = 5, p-value = 0.003766 


结论 : 对 因素 A, p 值 (0.966) 远 大 于 0.05, 接受 原 假设 , 认为 因素 4 的 各 水 平 下 
的 数据 是 等 方差 的 ; 对 因素 B, p 值 (0.003766) 小 于 0.05, 拒绝 原 假设 , 即 认 为 因 
素 B 不 满足 方差 齐 性 要 求 . 图 




















8.2.2 ”有 交互 作用 的 方差 分 析 
































设 有 两 个 因素 4 和 BB， 因 素 4 有 7 个 水 平 41, 42,… , A.; 因素 有 s 个 水 
平 B1, Bz,… , Bs 在 许多 情况 下 , 两 因素 4A 与 B 之 间 存 在 着 一 定 程度 的 交互 
作用 . 为 了 考察 因素 间 的 交互 作用 , 要 求 在 两 个 因素 的 每 一 水 平 组 合 下 进行 重 
复试 验 . 设 在 每 种 水 平 组 合 (4;, B;) 下 重复 试验 ti 次 . 记 第 k 次 的 观测 值 为 Xij;. 
则 有 交互 作用 的 两 因素 方差 分 析 模 型 可 表示 为 





































































































Xi = H+ ot By F033 et 2070530 S27 8 be 2, 
Eijk ~ N(0,0°), E 各 si 和 相互 独立 
Drs0 Dob 0 Dr 0 


这 里 oi 为 因素 4 的 第 i 个 水 平 的 效应 ， Bj 为 因素 B 的 第 个 水 平 的 效应 ， 
6ij 为 4i 和 B; 的 交互 效应 ， 多 二 去 sy Di Hij: 






























































检验 的 假设 为 
Hoi “Ql1 CQ2 Qr 0 (因素 A 对 指标 X 没 有 影响 ) 
Po :B11= 62 二 .… 二 6B,=0 (因素 B 对 指标 X 没 有 影响 ) 











Hos :6011 = 012 二.… = 61s = 二 0 (因素 A 和 B 没 有 联合 作用 ) 
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类 似 于 无 交互 作用 的 方差 分 析 , 总 的 离 差 平方 和 可 分 解 为 


SSr = 》》 ) (Xr — ¥)? 














i=1 j=1 k=1 
党 Ss t 
= FC Ry = 
i=1 j=1 k=1 i=1 
rt SX 一 义 )? 十 4 ， 和》 (Xs 一 X; 一 又 ;十 驴 ) 
j=1 i=1 j=1 


= SSp+SISA+SISB+ SOSAxB. 











人 逐 示 t 
二 1 1 
X 三 Ret Xijk, Xij 三 7 2 Xu 
= = = 态 二 于 
1 S t 1 Tr t 
从; Xijk, XR 3 A > Xi 
省 = i 
可 以 证 明 ， 
1) 当天 1 成 立时 ， 
一 1 
RE ke MN 


SSp/[rs(t — 1)| 
2) 当 H02 成 并 时 ， 


SSB/(s Se 1) 
SSp/[rs(t — 1)| 





Fp = ~F(s—1,rs(t— 1)). 


3) 当成 3 成 立时 ， 


SSaxB/[(r — 1)(s— 1)] 
SSg/[rs(t — 1)] 





FaAxB = ~ F((r—1)(s—1),rs(t— 1)). 




















R 软 件 中 仍 用 函数 aov( ) 进 行 有 交互 作用 的 方差 分 析 , 但 其 中 的 方差 模型 格式 
为 z A 十 B+ 4:B. 下面 用 一 个 例子 来 全 面 展 示 有 交互 作用 方差 分 析 过 程 . 
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例 8.2.2 ”有 一 个 关于 检验 毒品 强 弱 的 试验 , 给 48 只 老鼠 注射 I、II、III 三 
种 毒药 (因素 A), 同时 有 A、B、C、D 4 种 治疗 方案 (因素 B), 这 样 的 试验 在 每 一 
种 因素 组 合 下 都 重复 四 次 测试 老鼠 的 存活 时 间 , 数据 如 表 8.5 所 示 . 试 分 析 毒 药 
和 治疗 方案 以 及 它们 的 交互 作用 对 老鼠 存活 时 间 有 无 显著 影响 . 







































































表 8.5 老鼠 存活 时 间 ( 年 ) 的 实验 报告 








A B C D 

I 0.31 0.45 | 0.82 1.10 | 0.43 0.45 | 0.45 0.71 
0.46 0.43 | 0.88 0.72 | 0.63 0.76 | 0.66 0.62 
工 0.36 0.29 | 0.92 0.61 | 0.44 0.35 | 0.56 1.02 
0.40 0.23 | 0.49 1.24 | 0.31 0.40 | 0.71 0.38 
II | 0.22 0.21 | 0.30 0.37 | 0.23 0.25 | 0.30 0.36 
0.18 0.23 | 0.38 0.29 | 0.24 0.22 | 0.31 0.33 



































解 首先 以 数据 框 形式 输入 数据 , 并 用 函数 plot( ) 作 图 . 图 8.2 显 示 两 因 
素 的 各 水 平均 有 较 大 差异 存 寿 


























TT 


> rats<-data.frame( 

Time=c(0.31, 0.45, 0.46, 0.43, 0.82, 1.10, 0.88, 0.72, 0.43,0.45, 
0.63，0.76，0.45，0.71，0.66，0.62，0.38，0.29，0.40，0.23， 
0.92，0.61，0.49，1.24，0.44，0.35，0.31，0.40，0.56，1.02， 
0.71，0.38，0.22，0.21，0.18，0.23，0.30，0.37，0.38，0.29， 
0.23，0.25，0.24，0.22，0.30，0.36，0.31，0.33) ， 

Toxicant=gl] (3, 16, 48, labels = c("I", "II", "III")), 

Cure=gl (4, 4, 48, labels = c("A", "B", "C", "D")) 

) 

> op<-par (mfrow=c(1, 2)) 


> plot (Time“Toxicant+Cure, data=rats) 











下 面 再 用 函数 interaction.plot( ) 作 出 交互 效应 图 , 以 考查 因素 之 间 交 互 作 
用 是 否 存 在 , 及 程序 为 





























> with(rats, 
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8.2 ”毒药 和 治疗 方案 两 因素 的 各 自 效应 分 析 





interaction.plot(Toxicant, Cure, Time, trace.label="Cure")) 
> with(rats, 


interaction.plot(Cure, Toxicant, Time, trace.label="Toxicant")) 






































输出 结果 如 图 8.3(a) 和 图 8.3(b). 两 图 中 的 曲线 并 没有 明显 的 相交 情况 出 现 , 因 
此 我 们 初步 认为 两 个 因素 没有 交互 作用 . 

尽管 如 此 , 由 于 实验 误差 的 存在 , 我 们 用 方差 分 析 函 数 aov( ) 对 此 进行 而 
认 , 其 中 方差 模型 格式 为 x A* B, 或 4 十 B+ A:B, 表示 不 仅 考 虑 因素 A、B 各 
的 效应 , 还 考虑 两 者 的 交互 效应 . 车 仅 考 处 4 与 B 的 交互 效应 则 方差 模型 格式 
为 4:B 


由 R 程 序 
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Cure Toxicant 
B -ll 
D : 1 

-Cc 2 一 山 
A 


mean of Time 
mean of Time 























Toxicant Cure 


(a) 以 治疗 方案 为 跟踪 变量 (b) 以 毒药 为 跟踪 变量 











图 8.3 ”交互 效应 图 

















> rats.aov<-aov(Time“Toxicant*Cure, data=rats) 


> summary (rats.aov) 








得 到 检验 结果 为 
Df Sum Sq Mean Sq F value Pr (>F) 
Toxicant 2 1.03563 0.51781 23.2254 3.326e-07 *** 
Cure 3 0.91462 0.30487 13.6745 4.132e-06 *** 
Toxicant:Cure 6 0.24782 0.04130 1.8526 0.1163 
Residuals 36 0.80262 0.02230 
Signif. codes: 0 ‘***” 0.001 ‘** 0.01 ‘* 0.05 ‘“.” 0.1 “” 1 




















根据 p 值 知 , 因素 Toxicant 和 Cure 对 Time 的 影响 是 高 度 显 著 的 , 而 交互 作 
用 对 Time 的 影响 却 是 不 显著 的 . 

再 进 步 使 用 前 面 的 Bartlett 和 Levene 两 种 方法 检验 因 
素 Toxicant 和 Cure 下 的 数据 是 否 满足 方差 齐 性 的 要 求 , R 程 序 如 下 . 





















































> library (car) 
> levene.test(rats$Time, rats$Toxicant) 
> levene.test(rats$Time, rats$Cure) 


> bartlett.test(Time“Toxicant, data=rats) 
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> bartlett.test(Time“Cure, data=rats) 








结果 显示 从 略 , 其 中 各 p 值 均 小 于 0.05 表 明 在 0.05 显 著 性 水 平 下 两 因素 下 的 方差 
不 满足 齐 性 的 要 求 , 这 与 图 8.2 是 一 致 的 . 图 























88.3 ” 协 方 差分 析 


前 面 两 节 介绍 的 方差 分 析 方 法 中 两 组 或 多 组 均值 间 比 较 的 假设 检验 , 其 处 
理 因素 一 般 是 可 以 控制 的 . 但 在 实际 工作 中 , 有 时 有 些 因 素 无 法 加 以 控制 , 如 
何在 比较 两 组 或 多 组 均 数 间 差 别 的 同时 扣除 或 均衡 这 些 不 可 控 因 素 的 影响 , 可 
考虑 采用 协 方差 分 析 的 方法 . 


协 方差 分 析 (Analysis of Covariance, 简称 ancova) 是 将 线性 回归 分 析 
与 方差 分 析 结 合 起 来 的 一 种 统计 分 析 方 法 . 其 基本 思想 就 是 : 将 一 些 对 响应 变 
量 Y 有 影响 的 变量 ( 指 未 知 或 难以 控制 的 因素 ) 看 作协 变量 (covariate), 建立 响 
应 变量 Y 随 协 变量 X 变 化 的 线性 回归 关系 , 并 利用 这 种 回归 关系 把 X 值 化 为 相 
等 后 再 对 各 处 理 组 Y 的 修正 均值 (adjusted means) 间 差别 进行 假设 检验 , 其 实 
质 就 是 从 Y 的 总 的 平方 和 中 扣除 基 对 的 回归 平方 和 , 对 残 差 平方 和 作 进 一 步 
分 解 后 再 进行 方差 分 析 , 以 更 好 地 评价 这 种 处 理 的 效应 . 

可 见 , 对 于 一 个 协 方差 分 析 模 型 , 方差 分 析 是 主要 的 , 我 们 的 基本 目的 是 
作 方 差分 析 , 而 回归 分 析 仅 仅 是 因为 回归 变量 ( 协 变量 ) 不 能 完全 控制 而 引入 的 . 
下 面 讨论 最 简单 的 情形 : 一 个 协 变量 、 单 因素 的 协 方差 分 析 . 

设 试验 只 有 一 个 因素 4 在 变化 ，4 有 :个 水 平 41, 4 … , 4,， 与 之 有 关 
的 仅 有 一 个 协 变量 X, 在 水 平 4; 下 进行 n; 次 独立 观测 ， 得 到 n 对 观测 数 
据 (Xij, Yj)),i = 1,2,… 7; 站 三 14,2,… ,mz, 则 协 方差 模型 可 用 线性 模型 表 
示 为 
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Yj=4+at+h(Xi; — X.) + ei = 1,2, ,7,) = 1,2,.. ,ns 
eij ~ N(O, 0°), 且 各 s;; 相 互 独立 
i mi0i = 0, Bb 关 0 





其 中 /为 总 平均 ,ai 为 第 ;个 水 平 的 效应 , 8 是 Y 对 XX 的 线性 回归 函数 , ejj 为 随机 
误差 , 也 为 X 的 总 平均 数 ， 
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给 定 显著 水 平 a, 考虑 假设 检验 











Ho :a = = 0 0 ,ar 不 全 相等 
今 
SSr(y) = 和 yo 7.) = SS 一 nY”(y 的 总 离 均 差 平方 和 ) 
i=1 j=1 i=1 j=1 
SSA(y) = ye 本 ee 一 nY”(y 的 组 间 平 方 和 ) 
i ey 


SSg(Y) = -SY 一 了 7 了)? 5Sr(y) -SSa(y) (y 的 组 内 平方 和 ) 
j=1 





i=1 j=1 i=1 j=1 
S54(z) = S(T; -XY)? -DnX? nx? (zc 的 组 间 平 方 和 ) 
i=1 j=1 i=1 








99P(Z) 一 DS 二 Xi)? 一 997(Z) 于 997(Z) (y 的 组 内 平方 和 ) 
j=1 


起 


SPr = Oo 一 和 .JJ(0O5 — Y.) = —nX.Y. 
i=1 j=1 i=1 j=1 
(z 与 y 的 总 离 均 差 乘 积 和 ] 
SP 六 > — X.Y —Y.)= >》 mAY 一 了 
2 














i=1 j=1 
(z 与 y 的 组 间 乘 积 和 ) 
SPs = 》,》 (Xi -Xi)(Yiy -Yi)= SPr -SPa (z 与 y 的 组 内 乘积 和 ) 
i=1 j=1 
其 中 
Xi -二 - a Y; -二 Ys 
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a 1 1 一 1 二 二 
各 =》 一》 X= -xX,, 
rn;4 ?rz 
$1 #4 三 1 4 三 1 
= sl 1 
Y=- 四 > Yi; = — 
7 ni; < . 
i=1 j=1 ¢=1 




















1 此 得 参数 Jj、a; 和 6 的 估计 为 


SP i 


a 
H 1) b SSp(7x)’ 























其 中 必 (X; 一 XX.) 反 映 了 因 线 性 回归 系数 显著 时 对 数据 知 矫正 . 这 时 矫正 后 的 
组 内 平方 和 为 




















SSp= SSp(y) — VSPp = SSp( je 
0 ,SSp = 
其 自由 度 为 df =n 一 + 一 1， ~ (nn 一 7 一 1). 矫正 后 总 平方 和 为 
SSr = SSr( Te 
* T\Y SST(7)’ 


流 


正 后 的 组 间 平 方 和 为 





SSA= SSr— Sp, 


| , ER a 归 
其 自由 度 为 4f = "一 1, 且 一 六 ~ ("一 了 . 而 在 名 成 立时 , S54 与 5g 独立 ， 


从 而 



































SSSA 
7—1 
SSp 


n—7r—1 
因此 , 若 玉 > 三 _。(7 一 1,n 一 7 一 1), 则 拒绝 Ho, 即 认 为 各 水 平 效应 显著 不 同 . 
反之 “接受 ” 原 假设 . 
及 中 HH 程序 包 中 的 函数 ancova( ) 提 供 了 方差 分 析 的 计算 , 其 调用 格式 为 





F= ~F(r—1l,no—r—1). 




















ancova( ) 的 调 


ancova(formula, data.in = sys.parent(), 


用 格式 





x, groups) 





说 明 :formula 是 协 方 差分 析 的 公式 , data.in 是 数据 框 , x 为 协 方差 分 析 中 的 
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协 变量 , 在 作 图 时 若 formula 中 没有 x 则 需要 指出 , groups 为 因子 , 在 作 图 时 

















若 formula 的 条 件 项 中 没有 groups 则 需要 指出 , 其 它 参 见 在 线 帮 助 . 
































例 8.3.1 ”为 研究 A、B、C 三 种 饲料 对 猪 的 催肥 效果 , 用 每 种 饲料 哈 
养 8 头 猪 一 段 时 间 , 测 得 每 头 猪 的 初始 重量 (X) 和 增 重 (Y), 数据 见 表 8.6. 试 分 析 





三 种 饲料 对 猪 的 催肥 效果 是 否 相同 ? 

















表 8.6 三 种 饲料 喂养 猪 的 初始 重量 与 增 重 




















饲料 A B 饲 料 C 饲 料 

Xi Yi X, Y, Xs Ys 
1 15 85 17 97 22 89 
2 13 83 16 90 24 91 
3 11 65 18 100 20 83 
4 12 76 18 95 23 95 
5 12 80 21 103 25 100 
6 16 91 22 106 27 102 
7 14 84 19 99 30 105 
8 17 90 18 94 32 110 











解 饲料 是 人 为 可 以 控制 的 定性 








因素 , 猪 的 初始 重量 是 难以 控制 的 定量 因 









































加 | 














子 , 为 协 变量 X; 实验 的 观察 指标 是 猪 的 增 量 , 为 响应 变量 Y. 各 组 的 增 重 由 于 


























受 猪 的 原始 体重 影响 , 不 能 直接 进行 方差 分 析 , 需 进行 协 方差 分 析 . RR 程序 及 结 


果 如 下 : 





。 建 立 数据 集 





feed<-rep(c("A",'"B",'"C") ,each=8) 
Weight_Initial <- c(15,13,11,12,12,16,14,17,17,16, 
18,18,21,22,19,18,22,24,20,23, 
25 ,27 ,30 ,32) 
Weight_Increment <-c(85,83,65,76,80,91,84,90,97,90, 
100,95,103,106,99,94,89,91,83, 

95,100,102,105,110) 
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data_feed<-data.frame(feed,Weight_Initial,Weight_Increment) 


。 若 认为 在 三 种 不 同 饮料 喂养 下 , 猪 的 初始 体重 不 同 ,但 增长 速度 相同 , 这 
时 使 用 命令 








> ancova(Weight_Increment ”Weight_Initial+feed ， 


data=data_feed) 


得 到 图 形 8.4. 由 函数 anova( ) 提 取 协 方差 分 析 表 得 


Weight_Increment ~ Weight_ Initial + feed 
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图 8.4 增长 速度 相同 下 的 回归 








Analysis of Variance Table 
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Response: Weight_Increment 
Df Sum Sq Mean Sq F value Pr (>F) 
Weight_Initial 1 1621.12 1621.12 142.445 1.496e-10 *** 


feed 2 707.22 353.61 31.071 7.322e-07 *** 
Residuals 20 227.61 11.38 
Signif. codes: 0 ‘*** 0.001 ‘**” 0.01 ‘* 0.05 ‘“.” 0.1 


可 见 猪 的 初始 体重 和 增长 速度 对 猪 的 增 重 都 有 显著 差异 . 
。 若 认为 在 三 种 不 同 饮料 喂养 下 , 猪 的 初始 体重 和 增长 速度 都 不 同 , 这 时 使 


用 命令 














> ancova(Weight_Increment ~ Weight_Initial*feed ， 


data=data_feed) 


得 到 图 形 8.5. 





从 两 个 图 的 比较 及 初始 体重 对 增长 的 检验 发 现 , 三 种 饲料 对 猪 的 催肥 效果 相 
同 , 猪 的 初始 体重 对 其 影响 不 大 . 图 
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Weight_Increment ~ Weight_ Initial * feed 
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图 8.5 增长 速度 不 同 下 的 回归 


第 八 章 习 题 








8.1 ”有 4 个 不 同 的 实验 室 制作 同一 型 号 的 纸张 , 为 比较 各 实验 室 生 产 纸张 的 
光滑 度 , 测量 了 每 个 实验 室 生产 的 8 种 张 纸 , 得 其 光滑 度 如 表 8.7 所 示 . 假设 上 述 
数据 服从 方差 分 析 模 型 . 试 在 显著 性 水 平 a = 0.05 下 , 检验 各 个 实验 室 生 产 的 
纸张 的 光滑 度 是 否 有 显著 差异 . 

.2 在 对 比 研 究 中 观察 正常 人 人、 萎缩 性 胃炎 和 胃癌 三 个 不 同 群 
体 ( 用 TYPE=A，B 和 C 表 示 ),， 记 录 的 资料 见 表 8.8， 试 对 该 组 数据 作 方差 分 
析 . 
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1) 检验 三 个 群体 中 CEA 含 量 的 分 布 是 否 为 正 态 分 布 , 方差 是 否 相 等 (a = 
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表 8.7 ”四 个 实验 室 生产 纸张 的 光滑 度 
实验 室 纸张 光滑 度 
Ai 38.7 41.5 43.8 44.5 45.5 46.0 47.7 58.0 
A, 39.2 39.3 39.7 41.4 41.8 42.9 43.3 45.8 
As 34.0 35.0 39.0 40.0 43.0 43.0 44.0 45.0 
As 34.0 348 348 35.4 37.2 37.8 41.2 42.8 
0.01)? 
2) 试用 方差 分 析 (ANOVA) 过 程 比 较 这 三 个 群体 CEA 含 量 有 无 显著 差异 ? 若 

















8.3 ”在 饲料 对 样 鸡 增 肥 的 研究 ! 























有 显著 差异 , 请 指出 哪些 群体 间 CEA 的 






































, 茶 研 究 所 提出 三 种 








F 均 含量 有 显著 差异 ? (a = 0.05) 





Fh 饲料 配方 :41 是 以 鱼粉 


为 主 的 饲料 , 4s 是 以 槐 树 粉 为 主 的 饲料 , 43 是 以 首 欧 粉 为 主 的 饲料 , 为 比较 三 


种 饲料 的 效果 , 特 选 3 





0 只 纵 鸡 随机 ] 




















察 它们 的 重量 , 试验 结果 如 表 8.9 所 示 . 度 如 














析 , 可 以 得 到 哪些 结果 ? 








8.4 ”为 考察 对 纤维 


























的 同一 批 原料 进行 
设备 进行 重复 测量 


消 





i 





里 








著 (a = 0.05)? 


8.5 “水稻 试验 问题 : 考察 的 因 
稳 的 产量 Y. 设 因子 A 有 三 个 水 平 : 41( 罕 叶 
子 B 有 四 个 水 平 : Bi( 无 肥 ),， Bz( 低 肥 ), Bs( 
每 一 种 , 在 两 块 试验 田 上 做 实验 . 每 块 试验 田 





























弹性 测量 的 误差 , 现 对 四 


试验 数据 如 表 8.10 所 示 ， 请 















































的 分 为 三 组 , 每 组 各 喂 一 种 饲料 , 60 天 后 观 
FE 显著 性 水 平 a = 0.05 下 进行 方差 分 








个 工厂 (4i, 4h2, 43, 44) 生 产 
册 量 , 每 厂 各 找 四 个 检验 员 (Bi, Bs, Bs, Ba) 轮 流 使 用 各 三 





问 因素 A 与 B 的 影响 是 否 显 











青 ), 42( 珍 珠 矮 ) 和 4s3 人 ( 洋 
肥 ) 和 Ba( 高 肥 ). 对 这 12 种 搭配 的 
分 为 12 块 面积 相同 的 小 田 , 随机 


子 有 水 稳 品 种 A 和 施肥 量 B; 考察 的 指标 为 水 








[二 矮 ); 因 


地 安排 12 种 搭配 条 件 进行 试验 . 得 数据 如 下 表 8.11 所 示 . 试 分 析 水 稻 试 验 数据 ， 


并 回答 以 下 问题 : 














1) 不 同 稻 种 的 产量 





























2) 不 同 的 施肥 量 对 F 

















3) 稳 种 和 施肥 量 对 





























4) 稻 种 和 施肥 量 有 





| 


万 


作用 ? 





显著 的 差别 ? 哪 种 稻 种 更 好 些 ? 
否 有 明显 的 影响 ? 最 适合 的 施肥 量 是 多 少 ? 


是 
产量 的 影响 哪个 更 大 些 ? 
乱 





8.6 

































































用 3 种 月 

















E 力 (Bi1、 B,、 Bs) 和 四 种 温度 (Ai、 A,、 A;、 44) 组 成 的 集 ! 
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表 8.8 胃液 瘤 胚 抗原 (CEA) 含 量 X(mg/mg) 
20.4 30.2 210.4 365.0 56.8 37.8 
265.3 175.0 169.8 356.4 254.0 262.3 
正常 人 | 170.5 360.0 78.4 86.4 128.0 24.1 
(A) | 28.5 108.5 472.5 158.6 238.7 253.6 
57.0 189.6 59.3 259.3 380.2 210.5 
64.6 87.3 
281.0 377.1 230.0 537.9 248.7 571.4 
766.2 495.0 87.3 389.8 423.9 577.3 
萎缩 性 | 66.8 521.3 327.8 421.4 149.7 47.5 
胃炎 | 425.7 270.8 378.5 228.0 538.7 245.6 
(B) |584.1 64.8 485.6 110.8 398.7 452.6 
587.7 86.8 532.1 311.6 442.2 
480.0 488.9 350.7 652.8 1400.0 850.0 
725.6 590.0 765.0 1200.0 231.2 485.3 
胃癌 | 600.0 1380.0 438.5 652.4 432.8 296.1 
(C) | 464.8 608.4 688.5 630.5 750.0 815.0 
664.0 348.6 550.0 640.0 
表 8.9 鸡 饲料 试验 数据 
饲料 鸡 重 /g 
41 |1073 1058 1071 1037 1066 1026 1053 1049 1065 1051 
4。，|1061 1058 1038 1042 1020 1045 1044 1061 1034 1049 
43 |1084 1069 1106 1078 1075 1090 1079 1094 1111 1092 
5) 使 产量 达到 最 高 的 生产 条 件 是 什么 ? 


试验 
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表 8.10 纤维 弹性 数据 
检验 员 Al A, As Ai 
Bi 71.73 73.75 76.73 71.73 
B。， 72.73 76.74 79.77 73.72 
Bs 75.73 78.77 74.75 70.71 
By 77.75 76.74 74.73 69.69 
表 8.11 水 稻 试验 数据 
Bi 也 > 也 3 By 
Ai | 19.3 19.2 | 240 27.3 | 26.0 28.5 | 27.8 28.5 
A， | 21.7 22.6 | 27.5 30.3 | 29.0 28.7 | 30.2 29.8 
Ai | 200 20.1 | 242 27.3 | 245 27.1 | 28.1 27.7 




































































方案 , 得 到 产品 得 率 资料 如 表 8.12 所 示 , 试 分 析 压 力 和 温度 以 及 它们 的 交互 作 
用 对 产品 得 率 有 无 显著 影响 (a = 0.05). 
表 8.12 实验 数据 及 计算 表 
温度 A 压力 B 
Bi B, Ba 
Ai 52 43 39|4 47 5|149 38 42 
A, 48 37 39150 4 30136 48 47 
A; 34 42 38|136 39 44|.37 40 32 
Al， 45 58 42|144 4 60143 56 41 
8.7 “为 了 提高 化 工厂 的 产品 质量 , 需要 寻求 最 优 反应 速度 与 压力 的 搭配 , 为 
此 选择 如 下 水 平 : 
A: 反应 速度 (m/s) 60 70 80， 
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B: 反应 应 力 (kg) 2 2.5 3 





在 每 个 (4;, B;) 条 件 下 做 2 次 试验 , 其 产量 如 表 8.13 所 示 . 





表 8.13 试验 数据 








Ai1 A, As 
Bi 4.6 4.3 6.1 6.5 6.8 6.4 
B, 6.3 6.7 3.4 3.8 4.0 3.8 
Bs 4.7 4.3 3.9 3.5 6.5 7.0 




















(1) 对 数据 作 方 差分 析 ( 应 考虑 交互 作用 ); 
(2) 对 (4, B;) 条 件 下 平均 产量 作 多 重 比较 . 























8.8 ”在 庆 大 霉 素 三 种 不 同 水 平 下 , 即 对 照 组 (无 ), 30ug/ml 和 300ug/ml 作 免 
子 结肠 器 官 培养 液 中 胸腺 喀 喧 核 苷 的 吸收 分 析 . 对 每 个 试验 , 可 得 到 不 同 浓度 














的 胸腺 喀 啶 核 痛 外 的 含量 和 DNA 的 含 成 量 Y, 数据 如 表 8.14 所 示 . 如 果 抗 生 素 








有 效 , DNA(Y) 合 成 率 会 降低 . 试 作协 方差 分 析 . 











表 8.14 在 兔 结肠 器 官 培养 液 中 胸腺 喀 啶 核 背 的 吸收 分 析 





























对 照 30ug/ml 300ug/ml 
Xi Yi XX Y, XK Ys 
1.40 0 1.6 0 2.2 0 
1.5 3 2.0 3 2.3 3 
1.8 5 2:3 5 3.0 10 
2.2 10 2.9 10 3.2 5 
3.4 9 4.5 20 4.5 20 
3.6 25 5.1 25 5.9 30 
4.6 30 6.0 25 7.0 30 








8.9 已 知 出 生体 重 随 种 族 的 不 同 而 不 同 . 白 种 人 婴儿 的 出 生体 重 比 其 他 种 



































族 的 重 . 出 生体 重 也 随 孕 期 的 增长 而 增加 , 是 月 (40 周 ) 的 婴儿 通常 比 不 是 月 (小 
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于 40 周 ) 的 重 . 一 般 来 说 , 当 比 较 不 同 种 族 婴 儿 的 出 生体 重 时 必须 对 孕期 长 短 进 
行 较 正 . 表 8.15 是 出 生体 重 孕 期 长 短 的 数据 试 作协 方差 分 析 . 






































表 8.15 按 母 亲 种 族 分 类 的 出 生体 重 的 孕期 








白人 黑人 西班牙 人 亚洲 人 
孕期 出 生体 重 | 孕期 出 生体 重 | 孕期 出 生体 重 | 孕期 出 生体 重 
(天 数 )”( 崔 司 ) | (天 数 ) ( 八 司 ) | (天 数 )”( 益 司 ) | (天数 ) (将 司 ) 

Xi Yi b>. Y, Xs Ys Xa Ya 
260 130 260 115 262 113 260 111 
275 135 263 118 264 115 271 174 
278 138 270 120 270 120 274 117 
280 142 278 125 275 121 279 118 
282 146 281 128 280 127 281 120 
288 149 285 132 284 132 283 122 














war 






































第 九 章 ”回归 分 析 与 相关 分 析 


本 章 概要 
4 相关 性 及 其 度量 
信 一 元 线性 回归 分 析 
人 多 元 线性 回归 分 析 
人 回归 诊断 
4 logistic 回 归 





















































相关 分 析 和 回归 分 析 是 研究 变量 间 相 互 关系 , 测定 它们 联系 的 紧密 程度 . 
揭示 其 变化 的 具体 形式 和 规律 性 的 统计 方法 , 是 构造 各 种 经 济 模型 、 进 行 结构 
分 析 、 政 策 评价 、 预 测 和 控制 的 重要 工具 . 









































89.1 ”相关 性 及 其 度量 


9.1.1 相关 性 概念 


变量 之 间 相 互 关 系 大 致 可 分 为 两 种 类 型 , 即 函 数 关 系 和 相关 关系 . 函数 
关系 是 指 变量 之 间 存 在 的 相互 依存 关系 , 它们 之 间 的 关系 可 以 用 某 一 方程 ( 函 
数 )y = f(z) 表达 出 来 ; 相关 关系 是 指 两 个 变量 的 数值 变化 存在 不 完全 确定 的 
依存 关系 , 它们 之 间 的 数值 不 能 用 方程 表示 出 来 , 但 可 用 菜 种 相关 性 度量 来 刻 
划 . 相关 关系 是 相关 分 析 的 研究 对 象 , 而 函数 关系 则 是 回归 分 析 的 的 研究 对 象 . 


相关 的 种 类 繁多 , 按照 不 同 的 标准 可 有 不 同 的 划分 . 按照 相关 程度 的 不 同 ， 
可 分 为 完全 相关 、 不 完全 相关 、 不 相关 ; 按照 相关 方向 的 不 同 , 可 分 为 正 相 关 和 
负 相 关 ; 按照 相关 形式 的 不 同 , 又 可 分 为 线性 相关 和 非 线性 相关 ; 按 涉及 变量 的 
























































































































































9.1 相关 性 及 其 度 





lu 





h 
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多 少 可 分 为 一 元 











在 进行 相关 分 析 和 回 | 
了 解 它们 之 间 的 关系 和 相关 程度 . 常见 的 是 一 些 连续 变量 间 的 散 点 图 
数据 点 分 布 在 一 条 直线 ( 
关系 . 若 有 多 个 变量 , 常 制作 多 幅 两 两 变量 间 的 散 点 图 来 考察 变量 间 的 关 















































日 关 和 多 元 相关 ; 按 影响 因素 的 不 同 , 可 分 为 单 相关 和 复 
日 分 析 之 前 , 可 先 通 过 不 同 变 量 之 间 的 散 点 






































相关 . 















































线 ) 附 近 , 表明 可 用 直线 (曲线 ) 近 似 地 































































































R 中 使 用 函数 plot ( ) 可 以 方便 地 画 出 两 个 样本 的 散 点 图 , 从 而 直观 地 了 
解 对 应 随机 变量 之 间 的 相关 关系 和 相关 程度 . 
例 9.1.1 茶 医 生 测 定 了 10 名 孕妇 的 15-17 周 及 分 娩 时 脐 融 血 TSH 
(Mu/ 工 ) 水 平 . 试 绘制 脐带 血 和 母 血 的 散 点 图 . 
表 9.1 10 名 孕妇 的 15-17 周 及 分 娩 时 脐带 血 TSH(MuyL) 
母 血 TSH(X) | 1.21 1.30 1.39 1.42 1.47 1.56 1.68 1.72 1.98 2.10 
脐带 血 (Y) | 3.90 4.50 4.20 4.83 4.16 4.93 432 4.99 4.70 5.20 








解 RR 程序 如 下 : 





> x<=-c(l.21, 1,30, 


> level <- data.frame(x 


> plot (level) 








名 


运行 结果 如 图 9.1. 从 





1.39, 
> y<-c(3.90，4.50，4.20， 
,y) 


1.42, 1.47, 1.56, 1.68, 1.72, 1.98, 2.10) 
4.83, 4.16, 4.93, 4.32, 4.99, 4.70,5.20) 





上 可 以 直观 看 出 , 数据 点 分 布 相对 较为 分 散 , 但 观察 所 























有 点 的 分 布 趋势 , 又 可 
正 相 关 关 系 . 


9.1.2 ”相关 分 析 




















能 存在 某 种 递增 的 趋向 , 所 以 可 推测 X 和 Y 之 间 有 某 种 












































散 点 























国 
图 是 一 种 最 为 有 效 最 为 简单 的 相关 性 分 析 工 具 ， 若 通 过 散 点 图 可 
以 基本 明确 它们 之 间 存 在 直线 关系 , 则 可 通过 线性 回归 进一步 确定 它们 之 间 























的 函数 关系 ( 见 $9.2), 它们 之 间 的 相关 
此 Person 相 关系 数 实际 上 反映 了 变量 | 
有 Spearman 秩 相关 系数 和 Kendall 相 


























程度 可 以 














jPerson 相 关系 数 来 刻 划 ， 因 
司 的 线性 相关 程度 的 大 小 . 














除 此 之 外 , 还 
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图 9.1 脐带 血 与 母 血 TSH 数 据点 的 散 点 图 




















设 两 个 随机 变量 怀 与 了 的 观测 值 为 (zu yi), (2Z2,92).… (zn,yn)， 则 它们 之 











间 的 (样本 ) 相 关系 数 为 : 
D(zi — 7T)(vy —D) 
YX,Y) -一 = , 
(7 一 Tz 2 (Yi — 9)? 
可 以 证 明 , 当 样 本 个 数 n 充 分 大 时 , 样本 相关 系数 可 以 作为 总 体 基 和 YY 的 相关 系 





数 


E(X — E(Y))(Y 一 五 (了 
VVar(X)Var(Y) 





P(X,Y) = 











lu 
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的 估计 . 因此 |y| < 1， 当 |?| 一 1 时 , 表明 两 变量 的 数据 有 较 强 线性 关系 ; 
当 |y| 一 0 时 , 表明 两 变量 的 数据 间 几 乎 无 线性 关系 , 7 > 0(< 0) 表 示 正 ( 负 ) 相 
关 , 表示 随 z 的 递增 ( 减 ), y 的 值 大 体 上 会 递增 ( 减 ). 


进一步 , 车 (X,Y) 服 从 二 元 正 态 分 布 , 则 




















EP VA 1 
PY ~ tn— 2) 
上 三 sy 











1 此 可 以 对 X 和 Y 进 行 Pearson 相 关 性 检验 : 若 T > _a(n 一 2)， 则 认 
为 X 和 YY 的 观测 值 之 间 存 在 显著 的 (线性 ) 相 关 性 . 此 外 , 还 可 根据 Spearman 秩 
相关 系数 和 Kendall 相 关系 数 进行 相应 的 Spearman 秩 检验 和 Kendall 检 验 ， 这 
里 只 介绍 及 中 的 函数 , 有 关 检 验 原理 请 参见 参见 数理 统计 教材 . 

在 及 软件 中 , cor.test( ) 提 供 了 上 述 三 种 检验 方法 , 其 调用 格式 为 
















































































cor.test( ) 的 调用 格式 -1 








cor.text(x, y， 
alternative=c('"two.sided"， "less"， "greater'") ， 
method=c("pearson", "kendall", "spearman'") ， 
exact=NULL, conf.level=0.95...) 








说 明 : zx,y 是 长 度 相同 的 向 量 ; alternative 是 备 择 假 设 , 默认 值 为 “two.side”; 
method 是 选择 检验 方法 , 默认 值 为 Pearson 检 验 ; coef .level 是 置信 水 平 , 默 
认 值 为 0.95. 

cor.test( ) 函 数 还 有 另外 一 种 调用 格式 







































































cor .test( ) 的 调用 格式 -2 


cor.test(formula, data, subset, na.action, ...) 


























说 明 : formula 是 公式 , 形 如 ut+v”，‘u”,， “Vv”, 它们 必须 是 具有 相同 长 度 的 

















数值 向 量 ; data 是 数据 框 ; subset 是 可 选择 向 量 , 表示 观察 值 的 子 集 . 
例 9.1.2 ”对 例 9.1.1 中 的 两 组 数据 进行 相关 性 检验 . 



































解 RR 程序 如 下 : 





> attach(level) 
> cor.test(x, y) 
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运行 结果 为 : 


Pearson's product-moment Correlation 

data: x and yt = 2.6284, df = 8， 
p-value = 0.03025 alternative hypothesis: 
true correlation is not equal to 0 95 percent confidence interval: 
0.0894336 0.9172270 
sample estimates: 

cor 
0.6807283 








结论 : 因为 p 值 二 0.03025 < 0.05, 故 拒绝 原 假设 , 从 而 认为 变量 x 与 y 相 关 ， 国 























89.2 ”一 元 线性 回归 分 析 








相关 分 析 只 能 得 出 两 个 变量 之 间 是 否 相关 , 但 却 不 能 回答 在 两 个 变量 之 间 
存在 相关 关系 时 , 它们 之 间 是 如 何 联系 的 , 即 无 法 找 出 刻画 它们 之 间 因 果 关 系 
的 函数 关系 . 回归 分 析 就 可 以 解决 这 一 问题 , 先 从 一 元 线性 回归 讲 起 . 





























9.2.1 ”数学 模型 

















设 变量 z 和 y 之 间 存 在 一 定 的 相关 关系 , 回归 分 析 方 法 即 找 出 Y 的 值 是 如 
何 随 X 的 值 的 变化 而 变化 的 规律 , 我 们 称 了 为 因 变量 (或 响应 变量 ), X 为 自 变 
量 (或 解释 变量 ), 现 通 过 例子 说 明 如 何 来 确定 了 与 X 之 间 的 关系 . 

例 9.2.1 有 10 个 同类 企业 的 生产 性 固定 资产 价值 (X) 和 工业 总 产 
值 (Y) 资 料 如 下 ( 见 表 9.2): 


为 了 直观 起 见 , 可 画 一 张 “ 散 点 图 ”, 以 z 为 横 坐 标 , y 为 纵 坐 标 , 每 一 数据 
对 (zi, wi) 为 X-Y 坐 标 中 的 一 个 点 , i = 1,2,...10, 如 下 图 9.2 所 示 . 相应 的 命令 
为 


























































































































> x <- c(318, 910, 200, 409, 425, 502, 314, 1210,，1022，1225) 
> y <- c(524, 1019, 638, 815, 913, 928, 605, 1516, 1219, 1624) 
> plot (x, y) 





从 图 上 发 现 , 10 个 点 基本 在 一 条 直线 附近 , 从 而 可 以 认为 了 与 X 的 关系 基本 上 
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表 9.2 企业 固定 资产 价值 和 工业 总 产值 
企业 编号 生产 性 固定 资产 价值 工业 总 产值 

( 旋 元 ) ( 旋 元 ) 

1 318 524 
2 910 1019 
3 200 638 
4 409 815 
5 425 913 
6 502 928 
7 314 605 
8 1210 1516 
9 1022 1219 
10 1225 1624 
合计 6525 9801 


























是 线性 的 , 而 这 些 点 与 直线 的 偏离 是 由 其 它 一 切 不 确定 因素 造成 的 , 为 此 可 作 
如 下 假定 



































Y=/f0++PX+s, (9-2.1) 








其 中 Y = bo + B1 久 表示 Y 随 XX 变 化 而 线性 变化 的 部 分 ; e 是 随机 误差 , 它 是 其 
它 一 切 不 确定 因素 影响 的 总 和 , 其 值 不 可 观测 , 通常 假定 e ~ N(0,o?). 称 函 
数 /X) = fo 十 B1X 为 一 元 线性 回归 函数 , Bo 为 回归 常数 , 81 为 回归 系数 , 统称 
回归 参数 . 称 X 为 回归 自 变 量 (或 回归 因子 ), 了 为 回归 因 变量 (或 响应 变量 ). 


若 (X 站), (Xz 也),.…, (Xn 了) 是 (, 了 ) 的 一 组 观测 值 (样本 ), 则 一 元 线 
性 回归 模型 可 表示 为 























































































































Y= Bo+ OXit+t es (= (9-2.2) 


其 中 E(s;) = 0, Var(e;) = 02, i = 1,2,...,n. 
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图 9.2 ”生产 性 固定 资产 价值 与 工业 总 产值 的 散 点 图 




















9.2.2 ”估计 与 检验 


Po, 的 估计 




















求 出 未 知 参数 po,8 的 估计 房 ,名 的 一 种 直观 想法 就 是 要 求 图 9.2 中 的 


























点 (Xi 六) 与 直线 上 的 点 充 , 况 的 71 
归 值 或 拟 合 值 . 令 
































Q(Bo0, BP1) = 








凯 离 越 小 越 好 , 这 里 训 = B06 + Xi; 称 为 回 














> (Yi — Bo — BXi)” (9-2.3) 


i=1 




















则 6o, Bi 的 最 小 二 乘 估 计 就 是 使 Q(B0, 9) 取得 最 小 值 时 的 如, 六. 
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用 微分 法 可 得 








要 Ss 

历 = Se a a 了 (9-2.4) 
二 

Bo = Y-fX (9-2.5) 


3 
甘 


=D Sy 届 二 全 < 中 


et i1 
即 (一 元 ) 回 归 方 程 为 Y = fo 十 PX 

通常 取 6? = p30 司 一 后 Xi)?/(n 一 2) 为 参数 go? 的 估计 量 ( 也 称 为 o? 的 
最 小 二 乘 估 计 ). 可 以 证 明 E(52) - 一 0? 




















回归 方程 的 显著 性 检验 


从 回归 参数 的 估计 公式 (9-2.4) 可 知 , 在 计算 过 程 中 并 不 一 定 要 知 
道 Y 与 XX 是否 有 线性 相关 的 关系 , 但 如 果 不 存在 这 种 关系 , 那么 求 得 的 回归 
方程 坚 无 意义 . 因此 , 需要 对 回归 方程 进行 显著 性 检验 . 对 于 一 元 线性 回归 模 
型 , 它 等 价 于 回归 系数 B1 的 显著 性 检验 


对 于 检验 问题 










































































Ho:B1=0 Hi:Dz0 
通常 采用 三 种 (等 价 ) 的 检验 方法 : 
(1) t 检 验 法 . 当 Ho 成 立时 , 统计 量 














T= PB _ 和 VS tn, 2) (9-2.6) 
Sd(B1) 0 


对 给 定 的 显著 性 水 平 a ,检验 的 拒绝 域 为 








C= {TI zt a(n — 2)} 
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可 





(2) 了 检验 法 . 当 Ho 成 立时 , 统计 量 








Re (9-2.7) 
02 





对 于 给 定 的 显著 性 水 平 a, 检验 的 拒绝 域 为 





Css 





(3) 相关 系数 检验 法 ， 记 样本 相关 系数 可 表示 为 4xy) = -半生 对 于 给 
定 的 显著 性 水 平 a, 检验 的 拒绝 域 为 

















C= {yr)| > -a(n — 2)}. (9-2.8) 








上 述 三 种 检验 中 , 当 拒 绝 Ho 时 , 就 认为 线性 回归 方程 是 显著 的 . 








Bo, 1 的 区 间 估 计 


由 房 与 记 的 统计 性 质 知 





T= ~t(n 2), i=0,1 (9-2.9) 


























| se- 中 =。 1 = 0,1 (9-2.10) 








得 Bi(i = 0,1) 的 区 间 估 计 为 


[6 — Sd(B)ts(n—2), P+Sd(Bi)ts(n— 2)] (9-2.11) 

















在 及 中 , 由 冰 数 lm( ) 可 以 非常 方便 地 求 出 回归 方程 , 函数 confint( ) 可 求 
出 参数 的 置信 区 间 .， 与 回归 分 析 有 关 的 函数 还 有 summary( )，anova( ) 
和 predict( ) 等 . 函数 lm( ) 的 的 调用 格式 为 


lm( ) 的 调用 格式 
lm(formula, data, subset, weights, na.action, ] 
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method="gr", model=TRUE, x=FALSE, y=FALSE， 
dr=TRUE, singular.0K =TRUE, contrasts=NULL, offset, ...) 








说 明 : formula 是 显示 回归 模型 ， data 是 数据 框 ， subset 是 样本 观察 的 子 
集 , weights 是 用 于 拟 合 的 加 权 癌 量 , na.action 显 示 数 据 是 否 包 含 缺 失 值 ， 



































method 是 指出 用 于 拟 合 的 方法 , model, x, y, qr 是 逻辑 表达 , 如 果 是 TRUE, 应 
返回 其 值 . 除了 第 一 个 选项 formula 是 必 选 项 , 其 它 都 是 可 选项 . 
函数 confint( ) 的 调用 格式 为 























confint( ) 的 调用 格式 


confint(object, parm, level=0.95, ...) 



































说 明 : object 是 指 回归 模型 , parm 要 求 指 出 所 求 区 间 估 计 的 参数 , 默认 值 为 所 
有 的 回归 参数 , leve1 是 指 署 信 水 平 ， 
例 9.2.2 ” 求 例 9.2.1 的 回归 方程 , 并 对 相应 的 方程 作 检验 
解 及 程序 如 下 : 
> X<-c(318，910，200，409，415，502，314，1210，1022，1225) 
> y<-c(524，1019，638，815，913，928，605，1516，1219，1624) 
> lm.reg<-lm(y~1+X) 
> summary (lm.reg) 
> confint(lm.reg, level=0.95) 








Ea 





程序 中 , 第 三 行 函数 Im( ) 表 示 使 用 线性 回归 模型 y = 60 + Biz, 第 四 行 函 
数 summary( ) 为 提取 模型 计算 结果 . 运行 结果 如 下 : 























Call: 
lm(formula = y ”1 + x) # 可 简化 为 lIm(formula = y ~ x) 


Residuals: 


Min 1Q Median 3Q Max 
-191.78 -87.05 44.75 77.86 145.66 
Coefficients: 


Estimate Std. Error t value Pr(>|t|) 
(Intercept) 395.5670 80.2611 4.929 0.00115 ** 
XX 0.8958 0.1066 8.403 3.06e-05 *** 
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Signif. codes: 0 ‘***” 0.001 ‘**” 0.01 ‘* 0.05 ”0.1 “” 1 


Residual standard error: 126.6 on 8 degrees of freedom 
Multiple R-Squared: 0.8982, Adjusted R-squared: 0.8855 
F-statistic: 70.62 on 1 and 8 DF, p-value: 3.059e-05 











结论 : 从 上 述 输 出 结果 p- 值 可 以 看 出 回归 方程 通过 回归 参数 的 检验 与 回归 方程 
的 检验 , 由 此 得 到 回归 方程 Y = 395.5670 十 0.8938X. 

得 到 了 回归 方程 , 还 可 以 对 误差 项 独立 同 正 态 分 布 的 假设 进行 检验 . 
在 RR 中 只 需 再 执行 一 个 plot 命 令 . 






























































> op<-par (mfrow=c (2,2)) 
> plot (lm.reg) 
> par(op) 





运行 结果 见 图 9.3， 上面 的 命令 plot (lm.reg) 实 际 上 使 用 了 四 次 plot (x，y)， 
产生 四 个 图 形 , 它们 分 别 为 : 














1) Residual vs fitted 为 拟 合 值 g 对 残 差 的 图 形 , 可 以 看 出 , 数据 点 都 基本 均匀 
地 分 布 在 直线 y = 0 的 两 侧 , 无 明显 趋势 ; 




















2) Normal QQ-plot 图 中 数据 点 分 布 趋 于 一 条 直线 , 说 明 残 差 是 服从 正 态 分 
布 的 ; 























3) Scale 一 Location 图 显示 了 标准 化 残 差 (standardized residuals) 的 平方 根 
的 分 布 情况 . 最 高 点 为 残 差 最 大 值 点 ; 























4) Cook 距 离 (Cook’s distance) 图 显示 了 对 回归 的 影响 点 . 





9.2.3 ”预测 与 控制 


对 X = zo, Y = ww 的 预测 值 为 加 = bo 十 zo, 置信 度 为 1 一 a 的 预测 区 间 








为 





1 (Xzo)? 
加 土石 -wa(n 一 oa pe To) (9-2.12) 
nN TI 
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图 9.3” 例 9.2.2 中 回归 











于 当 n > oo 时， ti_a/2(n sR 2) 乞 Z1—a/2) 于 是 Yyo 的 置信 度 为 1 = a 的 预测 





问 应 将 X 控 制 在 什么 范围 


7 





司 可 近似 为 


[加 OZ1—a2, Yo 二 Gz1_ap2| ， 






































不 等 式 (9-2.14) 得 到 X 的 取 值 范 


























7 > OZ1—a/2 a bo 7 
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(9-2.13) 





控制 可 视 为 是 预测 的 反问 题 , 即 要 求 观察 值 Y 在 某 一 区 间 (y,y,) 内 取 值 时 ， 




















Y + OZ1_ay2 = Bo 


D1x 





HF Biz 一 OZ1—a)2 





内 . 由 式 (9-2.13), 构造 不 等 式 


(9-2.14) 








E 制 关 的 上 下 界 . 为 了 保证 得 
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到 的 控制 范围 有 意义 , 和 应 满足 ys 一 Yi 之 26%1_ay2. 











例 9.2.3 ” 求 例 9.2.1 中 , X = zo = 415 时 相应 Y 的 置信 水 平 为 0.95 的 预测 
区 间 . 


解 及 程序 : 利用 predict( ) 函 数 求 预测 值 和 预测 区 间 ， 








> point<-data.frame (x=415) 
> lm.pred<-predict(lm.reg, point, 
interval="prediction", level=0.95) 
> lm.pred 
fit lwr upr 
[1,] 765.849 457.1226 1074.575 


程 中 选项 interval=“prediction” 表 示 同 时 要 给 出 相应 的 预测 区 间 , 选项 level 指 
出 相应 的 预测 水 平 , 默认 值 为 0.95, 这 时 可 省 略 . 由 计算 结果 得 到 : 当 z = 415 时 ， 
y 的 预测 值 为 767.339, 预测 区 间 为 [455.5666, 1079.111]. 回 
































9.2.4 ”计算 例子 

















例 9.2.4 ” 表 9.3 是 有 关 15 个 地 区 某 种 食物 年 需求 量 (X, 单位 : 10 吨 ) 和 地 
区 人 口 增加 量 (X, 单位 : 千 人 ) 的 资料 . 利用 此 表 数 据 展示 一 元 回归 模型 的 统计 
分 析 过 程 . 





















































P= 








表 9.3” 某 种 食物 年 需求 量 与 人 口 增加 量 








编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 
X |274 180 375 205 86 265 98 330 195 53 430 372 236 157 370 
Y |162 120 223 131 67 169 81 192 116 55 252 234 144 103 212 

















计算 分 析 过 程 如 下 : 











1) 建立 数据 集 , 并 画 出 散 点 图 : 考查 数据 点 的 分 布 趋势 , 看 是 否 呈 直线 条 状 
分 布 . 程序 如 下 


> x<-c(274, 180, 375, 205, 86, 265, 98，330，195， 53， 


9.2 一 元 线性 回归 分 析 :732 





430，372，236，157，370) 

> y=c(162，120，223，131， 67, 169, 81，192，116， 55， 
252，234，144，103，212) 

> A<-data.frame (x, y) 

> plot (A$x, A$y) 


运行 结果 如 图 9.4 所 示 , 可 以 看 出 , 这 些 点 基本 上 (但 不 精确 的 ) 落 在 一 条 直 
线 上 . 


2) 进行 回归 分 析 , 并 在 散 点 图 上 显示 回归 直线 . bf R 程 序 为 







































































> lm.reg<-lm(y” x) 
> summary (lm.reg) 


> abline(lm.reg) 








回归 结果 如 下 , 回归 直线 仍 画 在 图 9.4 上 . 

















Call: lm(formula = y ~ x) 


Residuals: 

Min 1Q Median 3Q Max 
-9.9610 -4.6079 -0.2618 3.1500 14.2152 
Coefficients: 


Estimate Std. Error t value Pr(>|t|) 
(Intercept) 22.59595 3.92745 5.753 6.67e-05 *** 
> 0.53008 0.01472 36.007 2.08e-14 *** 


Signif. codes: 0 '***! 0.001 '**' 0.01 '*' 0.05 '.' 0.1''1 


Residual standard error: 6.435 on 13 degrees of freedom 
Multiple R-Squared: 0.9901， 

Adjusted R-squared: 0.9893 

F-statistic: 1297 on 1 and 13 DF， 

p-value: 2.079e-14 


结论 : 


。 回归 系数 的 估计 与 检验 : 回归 系数 的 估计 为 B。= 22.59595, B61 = 
0.53008, 相应 的 标准 差 为 Sd(B0) = 3.92745,Sd(0) = 0.01472. 它们 
的 p 值 均 很 小 , 故 是 非常 显著 的 . 
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图 9.4 ” 例 9.2.4 中 数据 的 散 点 图 


























e@ 相关 分 析 : 相关 系数 的 平方 及 = 0.9901, 表明 数据 中 99% 可 由 回归 
方程 来 描述 . 

。 方程 的 检验 : F 分 布 的 p 值 为 2.079 x 10-14, 因此 方程 是 非常 显著 的 ， 
这 与 尺 2 的 结果 一 致 . 


























3) 残 差分 析 一 图 形 诊 断 : 用 函数 residuals( ) 计 算 回 归 方程 的 残 差 , 3 
出 关于 残 差 的 散 点 图 , 见 图 9.5. 





国 














> res<-residuals(lm.reg) 
> plot (res) 
> text(12, res[12], labels=12, adj=(.05)) 
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9.3 多 元 线性 回归 分 析 
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9.5“ 例 9.2.4 中 残 差 的 散 点 图 
从 图 9.5 可 以 看 出 , 第 12 个 样本 点 可 能 有 问题 (程序 中 已 用 函数 text( ) 标 
注 ), 它 比 其 它 样本 点 的 残 差 大 很 多 , 因此 , 这 个 点 可 能 有 问题 : 或 者 由 于 
模型 的 假设 不 正确 , 或 是 c? 不 是 常数 , 或 是 异常 点 , 等 等 . 总 之 , 需要 对 这 
回归 诊断 中 进行 详细 介绍 . 





个 问题 进行 进一步 的 分 析 , 这 在 9.4 节 的 


89.3 ”多 元 线性 回归 分 析 
个 而 是 多 个 , 我 们 称 这 
回归 问题 和 可 以 化 为 

















Ph, 影响 








许多 实际 问题 9 向 应 变量 的 因素 往往 不 只 一 
类 回归 分 析 为 多 元 回归 分 析 . 这 里 仅 讨论 最 为 一 般 的 线 怕 
线性 回归 的 问题 (如 本 章 第 四 节 logistic 回 归 ). 
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9.3.1 ”数学 模型 








假设 随机 变量 Y 与 p 个 日 变量 Xi, Xs,... ,XX, 之 间 存 在 着 线性 相关 关系 


Y= 60+0O Xi+ BX tt...+ BpXp, 














其 中 60,0 .0,B 是 未 知 参 数 ( 称 为 回归 系数 或 回归 参数)， 
X1, Xo,...,，Xb 是 p 个 可 以 精确 测量 并 可 控制 的 变量 ( 称 为 回归 因子 或 预测 变 
量 ), 了 为 响应 变量 . 车 其 n 次 观测 值 为 (Xia, Xi2, X 7),i = 1,2,...,n, 则 
这 n 个 观测 值 可 写 为 如 下 形式 : 











































































































= Pot+ BX 十 Xi 十 BpX1p 下 
= Do BiX21 t+ PoX22t...+ BpX2p + E2 

. ee (9-3.1) 
人 bo D1Xn1 中 加 Do Xn2 he Bp Xnp 十 En 





其 中 eicea，.,ey 是 随机 误差 , 和 一 元 线性 回归 分 析 一 样 , 我 们 假定 它们 相互 
独立 且 服 从 同一 正 态 分 布 N(0,0?). 


若 将 方程 组 (9-3.1) 用 和 矩阵 表示 , 则 有 


























Y= XS+e, (9-3.2) 

其 中 
Yi Xi Xi2... Xip D1 El 
y= 22 X= 1 Xo X22... Xo, 站 D2 E2 
本 1 Ko Xa Xo 记 -， 


9.3.2 ”估计 与 检验 








多 元 线性 回归 分 析 的 首要 任务 就 是 通过 寻求 8 的 估计 值 5, 建立 多 元 线性 
回归 方程 








Y= P+ Xi+P Xt+...+ BP,X,, (9-3.3) 
并 对 此 方 方 程 及 其 回归 系数 的 显著 性 作出 检验 . 
与 一 元 线性 回归 分 析 相 同 , 求 参 数 8 的 估计 值 8, 就 是 求解 8; 使 全 部 观察 


































































































9.3 多 元 线性 回归 分 析 . 277 . 
值 次 与 回归 值 ( 拟 合 值 ) 药 (i = 1,2,.….,n) 的 残 差 平 方 和 
Q(Bo, Pi1,..., Pr) = >》 (了 一 Do 二 Xil 十 DoXiz 十 .十 DO Xi) (9-3.4) 
4==31 
达到 最 小 . 
可 以 证 明 , 若是 满 列 秩 的 , 则 6 的 最 小 二 乘 估 计 为 
b= (XX)- XY. (9-3.5) 
1 残 差 向 量 e = YXB, 通常 取 
Ss 9-3.6 
0 a (9-3.6) 


作为 2 的 估计 , 也 称 为 o2 的 最 小 二 乘 估 计 . 






































得 到 了 回归 方程 后 , 由 于 我 们 无 法 像 一 元 线性 回归 分 析 那 样 用 直观 的 方法 
帮助 判断 了 与 Xi X2, .2 之 间 是 否 有 线性 关系 , 为 此 必须 对 回归 方程 进行 
显著 性 检验 . 其 次 在 p 个 变量 中 , 每 个 自 变 量 对 y 的 影响 程度 是 不 同 的 , 甚至 有 
的 自 变 量 是 可 有 可 无 的 . 这 表现 在 回归 系数 中 有 的 绝对 值 很 大 , 有 的 很 小 或 接 




















































































































近 于 零 , 这 就 需要 对 回归 系数 进行 显著 性 检验 . 
回归 方程 显著 性 检验 


考虑 假设 检验 问题 : 








Ho:B==...= ,=0 OO Hi:/bo,01,...,[Bp 不 全 为 0 
可 以 证 明 当 Ho 成 立时 , 统计 量 
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SSgp/(n—p—1) 





~F(p,n—p—1) 





SD 


站 $= 


~ 


De 和 ~ 和 和 和 和 
= Dk, Y= Pot BXit BoXiz tt...+t DpXip. 
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(9-3.7) 
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称 SSR 为 回归 平方 和 , 称 S.Sg 为 残 甘 平方 和 . 
此 , 对 于 给 定 的 显著 性 水 平 a, 检验 回归 方程 的 拒绝 域 为 








[Ea 














F> HF_a(p,n—p—1). 


回归 系数 的 显著 性 检验 


Ho; 二 一 0 < Hi; :BD; 0(7 = 0,1,...,p) 
可 以 证 明 ， 当 Ho; 成 立时 ， 有 


SSg/(n—p—1) 

















F; ~F(l,n—p—1) (9-3.8) 








其 中 Qj; = SSg0j) 一 SSp, SSg(j) 是 去 掉 X; 后 的 残 差 平方 和 . 

对 于 给 定 的 显著 性 水 平 a, 当 互 > 五 _。(1,n 一 p 一 1) 时 拒绝 Ho;, 认为 变 
量 X; 对 Y 有 显 着 影响. 

例 9.3.1 某 公司 在 各 地 区 销售 一 种 特殊 的 化 妆 品 , 该 公司 观测 了 15 个 
城市 在 某 月 对 该 化 妆 品 的 销售 量 (Y), 使 用 该 化 妆 品 的 人 数 (XI) 和 人 均 收 
入 (X2), 数据 见 表 9.4. 试 建立 Y 与 X1, Xs 的 线性 回归 方程 , 并 作 相应 的 检验 . 


解 及 程序 为 : 










































































> y<-c(162, 120, 223, 131, 67，169， 81，192，116， 55， 
252，232，144，103，212) 
> xl<-c(274，180，375，205， 86, 265, 98，330，195， 53， 


430，372，236，157，370) 

> Xx2<-c(2450，3250，3802，2838，2347，3782，3008，2450， 
2137，2560，4020，4427，2660，2088，2605) 

> Sales<-dqata.frame(y，XL，xX2) 

> lm.reg<-lm(y“x1+x2, data=sales) 


> summary (lm.reg) 





运行 结果 ; 


Call: 


9.3 多 元 线性 回归 分 析 


:279 . 











表 9.4 某 种 化 妆 品 的 销售 量 及 有 关 指 标 








表 
地 区 i | 销售 量 (7)/ 箱 。 人 数 (3)/ 干 人 人 均 收入 (X2)/ 元 











1 162 274 2450 
2 120 180 3250 
3 223 375 3802 
4 131 205 2838 
5 67 86 2347 
6 167 265 3782 
7 81 98 3008 
8 192 330 2450 
9 116 195 2137 
10 55 53 2560 
11 252 430 4020 
12 232 372 4427 
13 144 236 2660 
14 103 157 2088 
15 212 370 2605 
lm(formula = y ~ xl + x2, data = sales) 
Residuals: 
Min 1Q Median 3Q Max 
-3.8312 -1.2063 -0.2436 1.4819 3.3025 


Coefficients: 

Estimate Std. Error 
(Intercept) 3.4457284 2.4266934 
x1 0.4959724 0.0060455 
X2 0.0092049 0.0009668 


t Value Pr(>|t|) 
1.420 0.181 
82.039 < 2e-16 


六 冰冰 


9.521 6.07e-07 *** 


. 280 . 第 九 章 回归 分 析 与 相关 分 析 





5 


Signif. codes: 0 ‘***” 0.001 ‘** 0.01 ‘x*” 0.05 ‘.” 0.1 “” 1 
Residual standard error: 2.173 on 12 degrees of freedom 

Multiple R-squared: 0.9989, Adjusted R-squared: 0.9988 
F-statistic: 5699 on 2 and 12 DF, p-value: < 2.2e-16 








结论 : 由 于 用 于 回归 方程 检验 的 统计 量 的 p 值 与 用 于 回归 系数 检验 的 t 统 计量 
的 p 值 均 很 小 (<0.05), 因此 回归 方程 与 回归 系数 的 检验 都 是 显著 的 . 回归 方程 
为 








山 | 


















































Y = 3.4457 + 0.4960X1 + 0.0092X,. 


9.3.3 ”预测 与 控制 














当 多 元 线性 回归 方程 经 过 检验 是 显著 的 , 且 其 中 每 一 个 回归 系数 均 显 著 
时 (不 显著 的 先 吻 除 ), 这 时 可 用 此 回归 方程 作 预 测 . 


给 定 = zo = (X01, 202,.…… ,Xo0p)7, 将 其 代入 回归 方程 , 得 预测 值 









































一 bo 十 Bizo1 和 Dozop， (9-3.9) 








相应 的 置信 和 度 为 1 一 a 的 预测 区 间 为 




















thapln —p— DOV1+ zo(X'X) -zo. (9-3.10) 





例 9.3.2 ” 求 例 9.3.1 足 = zo = (200,3000) 时 相应 的 观测 值 与 0.95 预 
测 区 间 . 


解 与 一 元 回归 一 样 , 在 及 中 仍 使 用 函数 predict( ) 求 多 元 回归 预测 . 


> exa<-data.frame (x1=200,x2=3000) 





> lm.pred<-predict(lm.reg, exa, interval="prediction", level=0.95) 
> lm.pred 
运行 结果 
fit lwr upr 


[1,] 130.2549 125.3274 135.1824 


9.3 多 元 线性 回归 分 析 


281 ， 























9.3.4 “计算 例子 





例 9.3.3 27 名 糖尿 病人 的 
岛 素 (Xs)、 糖 化 血红 蛋白 (X4)、 空 腹 [ 




















六 
L 误 






































解 计算 分 析 过 程 及 相应 的 及 程序 如 下 : 














1) 建立 数据 集 : 


> y=c(11,.2, 8.8, 12,3, 11.6, 13.4, 18,.3, 11 
9.6, 8.4, 9.3, 10.6, 8.4, 9.6，10. 
14.8, 9.1, 10.8, 10.2, 13.6, 14.9, 16. 
20.0，13.3，10.4) 
> Xl<-c(5.68，3.79，6.02，4.85，4.60，6.05，4 
3.85,4.65, 4.59, 4.29, 7.97, 6.19, 6 
6.40,6.06, 5.09, 6.13, 5.78, 5.43, 6 
11.54,5.84, 3.84) 
> x2<-c(1.90, 1.64, 3.56, 1.07, 2.32，0.64， 
2.11，0.63，1.97，1.97， .93，1.18， 
2.40，3.67，1.03，1.71， 3.36，1.13， 
10.89，0.92， 1.20) 
> X3<-c(4.53，7.32，6.95，5.88， .05，1.42， 
16.28，6.59，3.61，6.61， .57，1.42， 
4.53,12.79，2.53，5.28， .96，4.31， 
1.20, 8.61, 6.45) 
> x4<-c(8.2, 6.9， 10.8; 8.3, 7:5; 13.6, 
79 Lal: B17, YT.8; 9.9, ‘6.9, 
10.3， 7.1， 855359595 0; 十 128， 


10.5，6.4，9.6) 


总 胆固醇 (Xi)、 匡 油 
糖 (7) 的 测量 值 列 于 表 9.5， 


> blood<-data.frame(y, x1, x2, Xx3, x4) 








2) 建立 多 元 线性 回归 方程 : 
































糖 与 其 它 指标 的 多 元 线性 回归 方程 , 并 作 进 一 步 分 析 . 


"1y 


和 Xs)、 空 腹 胰 














此 求 得 ， = 130.2549, 相应 的 并 的 0.95 的 预测 区 间 为 [125.3274，135.1824]. 








， 试 建立 血 


.90，7.08， 
.13, b.71, 
.50，7.98， 


二 2 
10 . 


10.5 


12 . 


9585 
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表 9.5 27 名 糖尿 病人 的 指标 








i Xl 又 2 X3 Xa Y 
1 5.68 1.90 4.53 8.2 ] .2 
2 3.79 1.64 7.32 6.9 8.8 
3 6.02 3.56 6.95 10.8 12.3 
4 4.85 1.07 5.88 8.3 11.6 
5 4.60 2.32 4.05 7.5 13.4 
6 6.05 0.64 1.42 13.6 18.3 
7 4.90 8.50 12.60 8.5 11.1 
8 7.08 3.00 6.75 11.5 | 
9 3.85 2.11 16.28 7.9 9.6 
10 4.65 0.63 6.59 7.1 8.4 
11 4.59 1.97 3.61 8.7 9.3 
12 4.29 1.97 6.61 7.8 10.6 
13 7.97 1.93 7.57 9.9 8.4 
14 6.19 1.18 1.42 6.9 9.6 
15 6.13 2.06 10.35 10.5 10.9 
16 5.71 1.78 8.53 8.0 10.1 
17 6.40 2.40 4.53 10.3 14.8 
18 6.06 3.67 12.79 7.1 9.1 
19 5.09 1.03 2.53 8.9 10.8 
20 6.13 1.71 5.28 9.9 10.2 
21 5.78 3.36 2.96 8.0 13.6 
22 5.43 1.13 4.31 二 14.9 
23 6.50 6.21 3.47 12.3 16.0 
24 7.98 7.92 3.37 9.8 13.2 
25 11.54 10.89 1.20 10.5 20.0 
26 5.84 0.92 8.61 6.4 13.3 
27 3.84 1.20 6.45 9.6 10.4 








> lm.reg<-lm(y “x1+x2+x3+x4,data=blood) 


> summary (lm.reg) 


9.3 多 元 线性 回归 分 析 . 283 . 








运行 结果 如 下 : 


Call: lm(formula =y ”xl+X2+X3+xXx4，data = blood) 


Residuals: 

Min 1Q Median 3Q Max 
-3.6268 -1.2004 -0.2276 1.5389 4.4467 
Coefficients: 

Estimate Std. Error t value Pr(>|t|) 

(Intercept) 5.9433 2.8286 2.101 0.0473 * 
x1 0.1424 0.3657 0.390 0.7006 
X2 0.3515 0.2042 1.721 0.0993 . 
X3 -0.2706 0.1214 -2.229 0.0363 * 
X4 0.6382 0.2433 2.623 0.0155 * 


Signif. codes: 0 '***! 0.001 '**' 0.01 '*' 0.05 '.' 0.1''1 


Residual standard error: 2.01 on 22 degrees of freedom 
Multiple R-Squared: 0.6008, 

Adjusted R-squared: 0.5282 

F-statistic: 8.278 on 4 and 22 DF ， 

p-value: 0.0003121 























结论 : 回归 方程 的 系数 的 显著 性 不 高 , 有 的 甚至 没有 通过 检验 (Xi 与 XX)， 
这 说 明 如 果 选 择 全 部 变量 构造 方程 , 效果 并 不 好 . 这 就 涉及 到 变量 选择 的 
问题 , 以 建立 “最 优 ” 的 回归 方程 , 

3) 变量 选择 与 最 优 回归 : 及 软件 提供 了 获得 “最 优 ” 回归 方程 的 方法 “逐步 
回归 法 ”的 计算 函数 step( ), 它 是 以 Akaike 信 息 统计 量 为 准则 (简称 AIC 准 
则 ), 通过 选择 最 小 的 AIC 信 息 统计 量 , 来 达到 删除 或 增加 变量 的 目的 . 函 


























[ 工 
























































数 step( ) 的 调用 格式 为 


step( ) 函 数 的 调用 格式 


step(object， scope, scale=0, 










direction=c("both", "backward", "forward", 
trace=1, keep=NULL, steps=1000, k=2, ...) 













说 明 : object 是 线性 模型 或 广义 线性 模型 分 析 的 结果 , scope 是 确定 逐步 

















搜索 的 区 域 , direction 确 定 逐 步 搜索 的 方向 :“both” 是 “一 切 子 集 回 归 
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法 ”,“backward” 是 “向 后 法 ”,“forward” 是 向 前 法 , 默认 值 为 both. 其 
它 参数 见 在 线 帮 助 . 
对 于 本 例 用 函数 step( ) 作 逐步 回归 : 


























> lm.step<-step(lm.reg) 





回归 结果 为 : 


Start: AIC= 42.16 


y ~ xXl + x2 +X3 + x4 


Df Sum of Sqg RSS AIC 
二 下 和 1 0.613 89.454 40.343 
<none> 88.841 42.157 


- XxX2 1 11.963 100.804 43.568 
- X3 1 20.064 108.905 45.655 
- x4 1 27.794 116.635 47.507 


Step: AIC= 40.34 
y ”X2 + x3 + x4 

Df Sum of Sq RSS AIC 
<none> 89.454 40.343 
— X3 1 25.690 115.144 45.159 
-= X22 1 26.530 115.984 45.356 
-x4 1 32.269 121.723 46.660 


结论 : 用 全 部 变量 作 回归 方程 时 ，AIC 统 计量 的 值 为 42.16, 如 果 去 掉 
变量 Xi，AIC 统 计量 的 值 为 40.34; 如 果 去 掉 变 量 X。，AIC 统 计量 的 值 
为 43.568, 依次 类 推 ， 由 于 去 掉 X1 使 AIC 统 计量 达到 最 小 , 因此 RR 软件 
会 自动 去 掉 变 量 Xi, 进入 下 一 轮 计 算 . 在 下 一 轮 中 , 无 论 去 掉 哪 一 个 变量 ， 
AIC 统 计量 的 值 均 会 升 高 , 因此 及 软件 自动 终止 计算 , 得 到 “最 优 ” 回 归 方 
程 


再 用 函数 summary( ) 提 取 相 关 回 归 信 息 . 































































































> summary (lm.step) 


提取 结果 为 : 
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Call: 
lm(formula =y ~ x2 + x3 + x4, data = blood) 
Residuals: 
Min 1Q Median 3Q Max 
-3.2692 -1.2305 -0.2023 1.4886 4.6570 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 6.4996 2.3962 2.713 0.01242 * 
X2 0.4023 0.1541 2.612 0.01559 * 
X3 -0.2870 0.1117 -2.570 0.01712 * 
X4 0.6632 0.2303 2.880 0.00845 ** 
Signif. codes: 0 ‘*** 0O0.001 ‘** 0.01 ‘* 0.05 ‘.” 0.1 ‘ 


Residual standard error: 1.972 on 23 degrees of freedom 
Multiple R-squared: 0.5981， 
F-statistic: 11.41 on 3 and 23 DF, p-value: 8.793e-05 





人 


导 到 “最 优 ” 的 回归 方程 








Adjusted R-squared: 0.5456 





结论 : 回归 系数 的 显著 性 水 平 有 很 大 提高 , 所 有 的 检验 均 是 显著 的 , 由 此 



































Y = 6.4996 + 0.4023Xs 一 0.2870Xa + 0.6632X4. 
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前 面 介绍 了 如 何 得 到 回归 模型 , 但 没有 对 回归 模型 的 一 些 特性 作 进一步 的 








在 








内 























究 , 并 且 没 有 研究 对 回归 模型 产 4 























E 较 大 影响 的 异常 值 问题 . 异常 值 的 存在 往 
往 会 给 回归 模型 带 来 不 稳定 , 为 此 , 人 们 提出 了 所 谓 加 
容 有 : 残 差分 析 、 影 响 分 析 、 共 线性 诊断 等 . 





























YY 


诊断 的 问题 , 其 主要 
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9.4.1 残 差分 析 




































































残 差 及 残 差 图 
残 差 向 量 e = YY 一 六 = (1 一 HY 是 模型 中 误差 项 e 的 估计 , 其 中 H = 
X(X'X)-1!X 称 为 帽子 矩阵 . 由 于 
E(é) =0, Var(é) = o*(I—H) (9-4.1) 
因此 , 对 每 个 é&;, 有 _ 
Ei 
yi ~ N(0,1), (9-4.2) 
其 中 hj; 是 和 矩阵 耳 对 角 线 上 第 i 个 元 素 . 
当 用 6? = 去 估计 o? 时 , 称 
n—p—1 
Ei 
放 二 二 帮 量 (9-4.3) 
为 标准 化 残 差 , 或 内 学 生化 残 差 . 
> 田 和 1 / 方 > 十 大人 
当 用 6%6 ee i be 六 6(i))? 去 估计 o? 时 , 称 
| (9-4.4) 
GV1 — hi | 
为 学 生化 残 差 ,或 外 学 生化 残 差 . 其 中 Bi 是 删 去 第 ?个 样本 点 后 用 余下 





的 n 一 1 个 样本 点 求 得 的 回归 系数 , 和 ;为 设计 入 


及 软件 中 , 分 别 用 函数 residuals( ), rs 
算 残 差 、 标 准 化 残 差 和 学 生化 残 差 . 这 些 函 数 























.) 


residuals(object, .. 


.) 


resid(object, .. 


rstandard( ) 的 调用 格式 


rstandard(model, infl=lm.influence(model, 


residuals( ) 的 调用 格式 








E 阵 入 的 第 7 行 . 
tandard( ) 和 rstudent( ) 来 计 
的 调 格 式 分 别 为 : 





coef=FALSE) ， 


do . 
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| sd=sqrt (deviance (model)/df.residual (model)), ...) | 





说 明 : object 或 model 是 由 线性 模型 函数 lm( ) 或 广义 线性 模型 函数 glm( ) 生 


rstudent (model, 


infl=lm.influence (model, 


res=infl$wt.res, ...) 





























rstudent( ) 的 调用 格式 
do.coef=FALSE, 





























成 的 对 象 , inf1 是 由 lm.influence( ) 返 回 值得 到 的 影 
E 差 , res 是 模型 残 差 . 


闪 








凡是 以 残 产 为 纵 4 





EE 标 ,， 以 观测 值 























响 结构 ,sd 是 模型 的 标 




















六， 预测 值 仿 ， 自 变量 Xij(j = 


1,2,.….,m) 或 序号 、 观 测 时 间 等 为 横 坐 标的 散 点 图 , 均 称 为 残 差 图 ， 如 果 


多 元 线性 回归 模型 的 假定 成 立 ， 从 到 
服从 N(0,1), 故 关于 观测 值 等 的 残 差 
































E 论 上 可 证 明 六 ， 7T2,.. 

















里 , 并 称 之 为 正常 残 差 图 ( 见 图 9.6a), 否则 称 为 异常 残 差 图 ( 见 图 9.6b,c,d). 


例 9.4.1 计算 例 9.3. 
解 及 程序 为 : 



































1 的 残 差 和 标准 残 差 , 并 画 出 相应 的 残 差 散 点 





























Da 











图 一 并 输出 














y.res<-residuals(lm.reg) # 计 算 残 差 
print(y.res) 
y.rst<-rstandard(lm.reg) # 计 算 标准 化 残 差 
print(y.rst) 
y.fit<-predict (lm.reg) # 计 算 预 测 值 
op<-par (mfrow=c(1, 2)) # 将 两 张 散 残 差点 
plot(y.resy.fit) 
plot(y.rst“y.fit) 
par (op) 

计算 结果 如 下 , 图 形 见 


足 模 型 的 各 个 假设 条 件 . 





残 差 : 


1 


2 





图 9.7. 从 图 9.7 可 以 看 出 , 残 差 具有 相同 的 分 布 且 


3 


4 


























5 


0.1058453 -2.6366596 -1.4323818 -0.2435552 -0.7032355 


6 


7 


8 


9 


10 


.,Tn 相 互 独立 且 近 似 
图 中 散 点 应 随机 的 分 布 在 -2 到 +2 的 带子 
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图 9.6 (1) 正常 的 残 差 图 ; (b) 应 改 为 曲线 模型 ; (c) 主 差 齐 性 不 成 立 ; (qd) 观 测 值 
不 独立 
-0.6913175 1.2606626 2.3313896 -3.8312025 1.7032127 
11 12 13 14 15 
-1.7175312 3.3024787 -0.9802297 2.4667892 1.0657346 
标准 化 残 差 : 
1 2 3 4 5 
0.05281317 -1.30635637 -0.73052549 -0.11643248 -0.36046378 
6 7 8 9 10 
-0.35064339 0.66372152 1.23228395 -1.92770717 0.91558703 
11 12 13 14 15 
-0.93261640 1.89069180 -0.47083133 1.24503836 0.57927692 
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图 9.7 例 9.4.1 中 的 残 差 与 标准 化 残 差 医 

















方差 齐 性 的 诊断 及 修正 方法 











从 图 9.7 的 残 差 图 可 以 看 出 , 当 残 差 的 绝对 值 随 预测 值 的 增加 也 有 明显 增 
的 趋势 (或 减少 的 趋势 , 或 先 增加 后 减少 的 趋势 ) 时 , 表示 关于 误差 的 方差 齐 
性 ( 即 误差 方差 01? = o2? = …. = ow?) 的 假定 不 成 立 . 
误差 方差 非 齐 性 时 , 有 时 可 以 通过 对 因 变 量 作 适 当 的 变换 , 即 令 2 = f(Y)， 
更 得 关于 因 变 量 Z 在 回归 中 误差 的 方差 接近 齐 性 ， 理论 上 根据 观测 向 量 了 的 
性 质 ( 如 均值 E(Y) 和 方差 Var(Y) 的 关系 等 ) 可 以 判断 出 应 做 什么 样 的 变换 合适 . 
实用 上 , 常 选用 一 些 常用 的 变换 , 变换 后 重新 做 回归 及 残 差 图 , 如 残 差 图 有 改 
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善 或 已 属 正常 , 则 认为 该 变换 是 合适 的 ; 否则 改变 变换 函数 重新 计算 , 直到 找 
到 合适 的 变换 , 常见 的 方差 稳定 性 变换 有 : 



































1) 开 方 变换 Z = VY (了 > 0); 





2) 对 数 变 换 Z = In(Y) (了 > 0); 


3) 倒数 ( 逆 ) 变 换 2 = 1/Y (Y #0); 

XN 

入 = 0 时 的 BOX-COX 变 换 即 为 对 数 变换 . 
例 9.4.2 ”在 对 27 家 企业 单位 的 研究 中 , 记录 了 企业 管理 人 数 (了 7) 与 工人 

人 数 ( 针 ) 资 料 ( 见 表 9.6). 试 建立 Y 对 X 的 回归 方程 . 


4) BOX-COX 变 换 2 = 



























































表 9.6 27 各 企业 单位 中 企业 管理 人 员 数 与 员工 数 

















1 
由 
< 潍 
< 


序号 又 立 | 序号 又 Y 
294 | 50 | 10 697 | 78 19 700 | 106 
247 | 40 | 11 688 | 80 20 850 | 128 
267 | 45 | 12 630 | 84 21 980 | 130 
358 | 55 | 13 709 | 88 22 | 1025 | 160 
423 | 70 | 14 627 | 97 23 | 1021 | 97 
311 | 65 | 15 615 | 100 | 24 | 1200 | 180 
450 | 55 | 16 999 | 109 | 25 | 1250 | 112 
534 | 62 | 17 | 1022 | 114 | 26 | 1500 | 210 
438 | 68 | 18 | 1015 | 117 | 27 | 1650 | 135 





























OO 0 J 大 WW DO -~ 





解 分 析 过 程 如 下 : 
1) 输入 数据 . 


> X<-c(294，247，267，358，423，311，450，534，438，697 ， 
688，630，709，627，615，999，1022，1015，700，850， 
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980，1025，1021，1200，1250，1500，1650) 
> y<-c(50，40，45，55，70，65，55，62，68，78， 

80，84，88，97，100，109，114，117，106，128， 

130，160，97，180，112，210，135) 
> persons<-data.frame(x, y) 
2) 作 线 性 回归 模型 

> lm.reg<-lm(y”x) 
> summary (lm.reg) 
得 到 : 
Call: 
lm(formula = y ~ x) 
Residuals: 

Min 1Q Median 3Q Max 
-47.645 -11.136 -4.278 11.683 41.677 
Coefficients: 

Estimate Std. Error t value Pr(>|t|) 

(Intercept) 25.09434 9.27542 2.705 0.0121 * 
xX 0.09549 0.01099 8.691 5.02e-09 *** 
Signif. codes: 0 ‘*** 0.001 ‘** 0.01 ‘* 0.05 ‘.” 0.1 ‘ 





Residual standard error: 21.08 on 25 degrees of freedom 
Multiple R-squared: 0.7513， Adjusted R-squared: 0.7414 
F-statistic: 75.54 on 1 and 25 DF, p-value: 5.018e-09 


























Y = 25.09434 + 0.0549X. 








3) 回归 诊断 . 画 出 标准 化 残 差 散 点 图 , 有 程序 为 


























显然 , 回归 系数 和 回归 方程 都 通过 了 检验 , 所 以 了 对 式 的 一 元 加 


归 方程 为 
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> y.rst<-rstandard(lm.reg) 


> y.fit<-predict (lm.reg) 


> plot(y.rst”~ 








y.fit) 














其 图 形 如 图 9.8 图 所 示 . 直观 上 容易 看 出 , 残 差 图 从 左 向 右 逐 渐 散 开 , 这 是 
方差 齐 性 不 成 立 的 典型 征兆 . 所 以 , 应 考虑 对 响应 变量 Y 作 变换 ，. 



























































图 9.8 ”标准 化 残 差 图 9.9 ”对 Y 开 方 运算 后 标准 化 残 差 














而 


























4) 模型 更 新 ， 在 新 的 平方 变换 下 进行 回归 分 析 , 并 进行 回归 诊断 ,相应 





的 及 程序 为 : 














> lm.new_reg<-update(lm.reg, sqrt(.)™.) 


> coef (lm.new_reg) 

















说 明 : 函数 update( ) 对 回归 模型 按 给 定 的 方差 稳定 化 变换 进行 修正 , 函 


数 coef ( ) 提 取 
计算 结果 为 : 











(Intercept) 


回归 系数 的 估计 . 





xX 


6.044644223 0.004780664 




















此 得 到 新 的 回归 方程 为 


Y = (6.044644223 + 0.004780664X)?, 
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ym 
由 一 | 


Y = 36.5377238 + 0.0577948X 十 2.28547 x 10-5X? 


最 后 画 出 变换 后 的 标准 化 残 差 散 点 图 , 程序 为 











> yn.TSt<-Tstandard(]m.new_Treg) 
> yn.fit<-predict(lm.new_Tregy) 


> plot(yn.rst“yn.fit) 





其 图 形 如 图 9.9 所 示 , 散 点 图 的 趋势 大 有 改善 . 


























异常 点 的 识别 











如 果 拟 合 后 的 模型 能 够 很 好 地 描述 这 组 数据 , 那么 残 差 对 预测 值 的 散 点 图 
应 该 像 一 些 随机 散布 的 点 . 可 是 , 若菜 个 观测 不 能 和 其 它 数据 一 起 用 这 个 模型 
表示 , 那么 那个 观测 的 残 差 通常 很 大 . 这 里 “很 大 ” 指 的 是 残 差 的 绝对 值 . 因为 
一 个 “很 大 ”的 残 差 可 能 是 正 的 也 可 能 是 负 的 . 如 果 只 有 占 很 小 百分比 的 观测 
出 现 大 的 残 差 , 那么 这 些 观 测 可 能 是 异常 点 (outliers) 一 它们 不 能 用 来 与 其 
余数 据 一 起 拟 合 模型 . 因此 对 数据 中 有 残 差 “很 大 ”的 观测 点 , 必须 仔细 地 检 
查 . 

















































































































一 般 把 标准 化 残 差 的 绝对 值 >2 的 观测 点 认为 是 可 疑点 ; 而 标准 化 残 差 的 
绝对 值 >3 的 观测 点 认为 是 异常 点 . 

例 9.4.3 ”对 例 9.3.1 中 得 到 回归 方程 , 判断 是 否 有 异常 点 . 

解 由 例 的 计算 结果 并 结合 图 形 可 以 看 出 , 第 12 个 点 的 残 差 比较 大 , 被 认 
定 为 异常 点 . 它 可 以 用 下 列 语句 将 异 妾 点 标 出 ( 见 图 9.10). 




























































































> text (219.78476, 2.4037012, labels=12, adj=(.2)) 



























































这 里 再 做 一 个 简单 处 理 , 去 掉 第 12 观 测 样本 点 , 并 重复 上 述 回 归 分 析 及 残 差分 
析 的 过 程 , 得 到 新 的 标准 化 残 差 图 9.11. 与 图 9.10 相 比 , 现在 残 差 点 的 分 布 已 有 
了 很 大 的 改进 , 它们 基本 上 落 在 [-2, 2] 的 带 状 区 域内 . 但 好 像 仍 有 一 个 可 疑点 存 
在 , 故 需 进一步 分 析 ( 从 略 ). 国 
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E 化 残 差 图 : 全 部 数据 ”图 9.11 标准 化 残 差 图 :去 掉 12 号 观测 























9.4.2 ”影响 分 析 








从 分 析 观 测 点 对 回归 结果 的 影响 入 手 , 找 出 对 回归 结果 影响 很 大 的 观测 点 
的 分 析 方 法 称 为 影响 分 析 . 











影响 函数 





称 向 量 Fi = Bi) 一 AB 为 第 i 个 观测 点 的 影响 函数 (i = 1,2,.….,n), 其 中 6 = 
(Bo, 记 ，.…. ,Ba) 是 回归 模型 中 参数 向 量 8 的 最 小 二 乘 估 计 ; Bl 是 去 掉 第 个 观 
测 点 重新 计算 得 出 6 的 最 小 二 乘 估计 . 直观 地 看 , 车 B 与 B6;) 相 差 较 大 , 则 表明 
第 ;个 观测 点 对 回归 结果 的 影响 就 大 . 

及 软件 中 计算 影响 函数 的 函数 为 Im.influence( ), 其 调用 格式 为 

































































lm.influence( ) 的 调用 格式 
| lm.influence(model, do.coef=TRUE) ] 


说 明 : model 为 回归 模型 .qo .coef=TRUE 表 示 结 果 要 求 给 出 去 掉 第 i 个 观测 点 
后 的 模型 回归 系数 . 
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Cook 距 离 











Cook 距 离 是 从 估计 角度 提出 的 一 种 度量 第 ?个 观测 点 对 回归 影响 大 小 的 统 
计量 . 对 每 一 个 观测 点 , 定义 Cook 距 离 为 























(Bw — PB) M(Ba — A) 
Oo 





Di(M, Co) = (9-4.5) 





一 般 取 MM 为 观测 数据 的 离 差 阵 ， Co 为 回归 模型 均 方 误差 (EMS). D; 大 的 观测 点 
称 为 强 影响 点 . 一 般 建议 使 用 的 判别 标准 是 : 当 |D;| > 4/n 时 , 认为 是 强 影响 
点 , 其 中 nn 是 样本 容量 . 

及 软件 中 用 于 计算 Cook 距 离 的 函数 为 cooks.distance( ), 其 调用 格式 



















































































cooks .distance( ) 的 调用 格式 


cooks.distance(model, infl=im.influence(model, do.coef=FALSE) ， 





res=weighted.residuals (model), 


sd=sqrt (deviance (model)/df .residual (model)), 
hat=infl$hat, ...) 


DFFITS 准 则 











Belsley Kuh 和 Welsch(1980) 给 出 男 一 种 准则 , 所 用 的 统计 量 为 


De 
其 中 c 用 估计 量 5() 来 代替 . 对 于 第 ;个 样本 , 如 果 有 


1 
Bens Yn 
nN 


则 认为 第 i 个 样本 的 影响 比较 , 这 里 的 p 十 1 是 参数 向 量 6 的 维 数 , n 是 样本 容量 . 
及 软件 给 出 了 DFFITS 准 则 的 计算 函数 affits( ), 其 调用 格式 为 : 


DPi(c) = (9-4.6) 

























































































dffits( ) 的 调用 格式 


dffits(model, infl=..., res=...) 
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COVRATIO 准 则 





利用 全 部 样本 点 的 回归 系数 估计 值 的 协 方差 阵 和 去 掉 第 ;个 样本 点 后 回归 
系数 估计 值 的 协 方差 阵 分 别 为 


























Var(B) = o2(XX)- Var(pa) = 0X X60)))! 























其 中 是 X 吻 除 第 ; 行 后 得 到 的 和 矩阵， 使 用 时 分 别 用 5 和 za 替代 上 面 两 式 中 























为 了 比较 其 回归 系数 的 精度 , 考虑 这 两 个 协 方差 阵 行列 式 的 比值 


det(0°(X1; XG) ) 
det(62(XTX)-!) 
(600))?+ 1 . 
一 (G2) oT ee i= 1,2,...,n (9-4.7) 

















COVRATIO; = 

















如 果 有 一 个 样本 点 所 对 应 的 COVRATI0 值 离 1 越 远 , 则 认为 该 样本 点 影响 越 大 . 
及 软件 中 计算 COVRATI0 值 的 函数 为 covratio( ), 其 调用 格式 为 : 






































covration( ) 的 调用 格式 


covratio(model, inf1=lm.influence(model， do.coef=FALSE) ， 





res=weighted.residuals (model)) 





注 : 上 面 介绍 了 四 种 分 析 强 影响 点 的 方法 及 相应 的 RR 函数 , 每 种 方法 找 
到 的 点 是 否 是 真正 的 强 影响 点 还 需要 根据 具体 情况 进行 分 析 . 在 及 软件 中 , 函 
数 influence.measures( ) 可 以 做 回归 诊断 中 影响 分 析 的 概括 , 它 的 调用 格式 
为 : 


influence.measures( ) 的 调用 格式 
| influence.measures (model) ] 


果 返 回 一 个 列表 , 列表 中 包括 DFFITS 统 计量 , COVRATI0 统 计量 , Cooks 距 离 






















































































例 9.4.4 电影院 老 板 调查 电视 广告 的 费用 z1 和 报纸 广告 的 费用 zs 对 每 
周 总 收入 y 的 影响 (单位 : 元 ), 数据 见 表 9.7. 试 给 出 回归 分 析 , 并 进行 回归 诊断 . 
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表 9.7 电视 广告 和 报纸 广告 费用 与 收入 的 数据 
































X1 X2 Y Xl X2 y 
1500 5000 96000 2000 2000 90000 
1500 4000 95000 2500 2500 92000 
3300 3000 95000 2300 3500 95000 
4200 2500 94000 2500 3000 94000 





解 RR 程序 如 下 : 


xl<-c(1500，1500，3300，4200，2000，2500，2300，2500) 
X2<-c(5000，4000，3000，2500，2000，2500，3500，3000) 
y<-c(96000，95000，95000，94000，90000，92000，95000，94000) 
money<-data.frame(x1, x2, y) 

lm.reg<-lm(y x1+x2, data=money) 


summary (lm.reg) 


V VV V V VvV Vv YY 


influence.measures (lm.reg) 























这 里 只 给 出 influence.measures( ) 函 数 语句 的 返回 结果 : 


Influence measures of 


lm(formula = y ~ xi + x2, data = money) 


dfb.1_ dfb.xl dfb.x2 dffit cov.r cook.d hat inf 
































1 1.98495 0.06107 -3.8115 -5.167 0.0461 2.2838 0.633 * 

2 0.11517 -0.26496 0.1105 0.533 1.7687 0.1018 0.301 

3 -0.19968 0.33167 0.1285 0.468 1.7188 0.0791 0.262 

4 0.88978 -1.56524 -0.3538 -1.871 1.8860 1.0056 0.660 * 

5 -1.53634 1.11782 1.4109 -1.633 2.1558 0.8133 0.645 * 

6 -0.16907 0.08580 0.1621 -0.242 2.1804 0.0233 0.226 

7 -0.00772 -0.00518 0.1016 0.383 1.2356 0.0499 0.140 

8 0.10067 -0.03095 -0.0686 0.305 1.4686 0.0335 0.132 

结论 : 可 以 看 出 , 第 1、4、5 个 观测 点 为 强 影响 点 , 结果 中 己 用 “*” 号 标 出 . 其 
中 , 第 一 个 样本 点 的 cook.d 值 为 2.2838 比 4/n=4/8=0.5 大 得 多 ; 第 四 个 样本 点 
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的 cov.r 值 为 1.8860, 与 1 距离 很 远 ; 第 五 个 样本 点 的 dfht 值 的 绝对 值 1.633 明 显 大 
于 2V 哄 = 2 =1. 故 这 三 个 点 被 认为 是 强 影响 点 . 四 



































9.4.3 ” 共 线 性 诊断 














共 线 性 问题 是 指 拟 合 多 元 线性 回归 时 , 自 变量 之 间 存 在 线性 关系 或 近似 线 
性 关系 . 自 变量 之 间 的 线性 关系 将 会 隐蔽 变量 的 显著 性 , 增加 参数 估计 的 误差 ， 
还 会 产生 一 个 很 不 稳定 的 模型 . 所 以 , 共 线性 诊断 就 是 找 出 哪些 变量 间 存 在 共 
线 关 系 , 主要 有 以 下 几 种 方法 : 












































特征 值 法 











首先 把 XX 义 变换 为 主 对 角 线 是 1 的 矩阵 , 然后 求 特征 值 和 特征 向 量 ， 若 
有 7 个 特征 值 近似 等 于 0, 则 回归 设计 阵 X 中 有 7 个 共 线 性 关系 , 且 共 线性 关系 的 
系数 向 量 就 是 近似 为 0 的 特征 值 对 应 的 特征 向 量 . 

R 软 件 中 提供 了 计算 矩阵 特征 值 和 特征 向 量 的 函数 为 eigen( ), 其 调用 格 
式 为 : 


eigen( ) 的 调用 格式 
eigen(x, symmetric, only.values=FALSE, EISPACK=FALSE) 


说 明 : z 为 所 求 窍 阵 , symmetric 规 定 矩 阵 的 对 称 性 , only .value=TRUE 表 示 只 
返回 了 特征 值 . 否则 , 返回 特征 值 和 特征 向 量 . 其 它 参 数 见 在 线 帮助 . 





























































































































条 件 指数 





若 自 变量 的 交叉 乘积 矩阵 X'X 的 特征 值 为 @ > 2 > ... z 用, 则 和 的 条 件 
数 di/dx 就 是 刻画 矩阵 的 奇异 性 的 一 个 指标 , 故 称 di/qj(7 = 1 … ,及 ) 为 条 件 指 

一 般 认 为 , 若 条 件 指 数值 在 10 与 30 之 间 为 弱 相 关 ; 在 30 与 100 之 间 为 中 等 相 
关 ; 大 于 100 表 明 有 强 相 关 性 . 

在 及 软件 中 , 可 使 用 函数 kappa( ) 计 算 和 矩阵 的 条 件数 , 其 调用 格式 为 : 


kappa( ) 的 调用 格式 
| kappa(x, exact=FALSE, ...) ] 
























































9.4 回归 诊断 . 299 . 











说 明 : zx 是 和 矩阵, exact 是 逻辑 变量 : 当 exact=TRUE 时 , 精确 计算 条 件数 ; 否则 
近似 计算 条 件数 . 














方差 膨胀 因子 











方差 膨胀 因子 VIF 是 指 回归 系数 的 估计 时 由 于 自 变 量 共 线性 使 得 方差 增 
加 的 一 个 相对 度量 . 对 第 7 个 回归 系数 (7 = 1 2…… ,m), 它 的 方差 膨胀 因子 定 



































第 j 个 回归 系数 的 方差 
变量 不 相关 时 第 j 个 回归 系数 的 方差 
1 1 


Ss a (9-4.8) 
i TOL; 

































































其 中 1 一 形 是 自 变量 zj 对 模型 中 其 余 自 变量 线性 回归 模型 的 开平 方 , VIF; 的 倒 
数 TOL; 也 称 容 限 (Tolerence). 

一 般 建议 : 若 VIF>10, 表明 模型 中 有 很 强 的 共 线 性 问题 . 

及 软件 的 DAAG 程 序 包 中 , 函数 vif( ) 可 用 来 计算 方差 膨胀 因子 , 其 调用 格 


式 为 



































vif( ) 的 调用 格式 


vif (lmobj, digits=5) 








说 明 : lmobj 为 由 lm( ) 生 成 的 对 象 , digits 给 出 小 数 点 位 数 , 缺 省 为 5 位 . 
例 9.4.5 ” 某 种 水 泥 在 凝固 时 单位 质量 所 释放 的 热量 为 Y 卡 /元 , 它 与 水 
泥 中 下 列 四 种 化 学 成 分 有 关 : 
X11 一 3CaO . Alz0s 的 成 分 (%) 
Xs 一 3CaO . SiO。 的 成 分 (%) 
X3 一 4Ca0 . Al203. Fez0s 的 成 分 (%) 
Xi4 一 2CaO . SiO， 的 成 分 (%) 
共 观 测 了 13 组 数据 ( 见 表 9.8), 试 对 自 变 量 的 共 线 性 进行 诊断 . 


解 回归 分 析 的 及 程序 如 下 : 













































































2 
> X2<-c(26，29，56，31，52，55，71，31，54，47，40，66，68) 
> x3<-c(6, 15, 8, 8, 6, 9, 17, 22, 18, 4, 23, 9, 8) 
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表 9.8 ”水 泥 数 据 








序号 Xi X。 Xs Xs Y 
1 7 26 6 60 78.5 
2 1 29 15 52 74.3 
3 11 56 8 20 104.3 
4 11 31 8 47 87.6 
5 7 52 6 33 95.9 
6 11 55 9 22 109.2 
7 3 71 17 6 102.7 
8 1 31 22 44 72.5 
9 2 54 18 22 93.1 
10 21 47 4 18 115.9 
11 1 40 23 34 83.8 
12 11 66 9 12 113.3 
13 10 68 8 12 109.4 








> x4<-c(60, 52, 20, 57, 33,22, 6, 44, 22, 18, 34, 12,，12) 

> y<-c(78.5, 74.3, 104.3, 87.6, 95.9, 109.2, 102.7, 72.5, 
93.1，115.9，83.8，113.3，109.4) 

cement<-data.frame(x1, x2, x3, x4) 

lm.reg<-lm(y x1+x2+x3+x4, data=cement) 

summary (lm.reg) 

library (DAAG) 

vif(lm.reg, digits=3) 


V VvV VvV Vv YYV 





结果 显示 为 








Call: 
lm(formula =y ~ xi + x2 + x3 + x4, data = cement) 
Residuals: 


Min 1Q Median 3Q Max 
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-3.2777 -1.3956 -0.2374 1.1650 4.0379 


Coefficients : 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 64.8044 22.8867 2.832 0.02210 * 


x1 1.4805 0.3598 4.115 0.00337 +** 

X2 0.4918 0.2285 2.153 0.06351 . 

X3 0.0510 0.3299 0.155 0.88097 

X4 -0.1563 0.2120 -0.737 0.48205 

Signif. codes: 0 ‘***” 0.001 ‘** 0.01 0.05 ”0.1 “” 1 














因此 , 在 0.05 的 水 平 下 , 仅 有 X: 是 显著 的 . 再 看 一 下 变量 Xi, X2, X3s, XX4 的 方差 
膨胀 因子 











> vif(lm.reg, digits=3) 
x1 X2 X3 X4 
9.54 26.90 9.51 31.40 











结论 : 由 于 X2 与 X4 的 方差 膨胀 因 了 均 大 于 10,， 因此 它们 之 间 可 能 存在 共 线 性 


性 . 由 命令 























> cor(x2, x4) 
[1] -0.94797 





知 它们 之 间 的 线性 相关 系数 达到 0.95, 因此 可 以 肯定 它们 之 间 的 确 存在 严重 的 
共 线 性 性 . 图 














89.5 Logistic 回 归 
































线性 回归 模型 是 定量 分 析 中 最 常用 的 统计 分 析 方 法 , 但 线性 回归 分 析 要 求 
响应 变量 是 连续 型 变量 . 在 实际 研究 中 , 尤其 是 在 生物 、 医 学 、 经 济 和 社会 数 
据 的 统计 分 析 中 , 研究 遇 到 非 连续 型 的 响应 变量 , 即 分 类 响应 变量 . 
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Logistic 回 归 








在 研究 两 元 分 类 响应 变量 与 诸多 自 变 量 间 的 相互 关系 时 ， 常 选 
用 logistic 回 归 模 型 . 


将 两 元 分 类 响应 变量 了 的 一 个 结果 记 为 “成 功 ”, 另 一 个 结果 记 为 “ 失 
败 ”, 分 别 用 0 和 1 表示 . 对 响应 变量 Y 有 影响 的 p 个 自 变 量 (解释 变量 ) 记 
为 1, 六 2,… , 叉 ,。 在 m 个 自 变 量 的 作用 下 出 现 “ 成 功 ” 的 条 件 概 率 记 
为 p = P(Y = 1|Xi, XX2,… ,六 ,), 那么 logistic 回 归 模 型 表示 为 






























































_ exp(Bo + Bizi + Poro +++ Porp) 
1 +exp(Bo + Bizi+ Boxz t+ :+ Poxy) 


其 中 Bo 称 为 常数 项 或 截 距 , B1, Bo,… ,Bs 称 为 logistic 回 归 模 型 的 回归 系数 . 
从 (9-5.1) 式 可 以 看 出 , logistic 回 归 模 型 是 一 个 非 线 性 的 回归 模型 , 自 变 
量 X;(7 = 1,2,:… ,p) 可 以 是 连续 变量 , 也 可 以 是 分 类 变量 , 或 哑 变 量 (dummy 
variable)， 对 自 变 量 X; 任意 取 值 , fo + BiXi + BaX2 十 … 十 BpXp 总 落 
在 (一 00, 十 oo) 中 , 因此 公式 (9-5.1) 的 比值 , 即 p 的 取 值 , 总 在 0 到 1 之 间 变 化 , 这 
是 logistic 回 归 模 型 的 合理 性 所 在 . 


对 公式 (9-5.1) 作 1ogit 变 换 , logistic 回 归 模 型 可 以 写成 下 列 线 性 形式 : 





(9-5.1) 
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ogit(D) = Im (1) = 克 + Xt Xt (9-5.2) 














这 样 我 们 可 以 使 用 线 ' 


er 


生 回归 模型 对 参数 6;, 7 = 1,2,...,p 进 行 估计 . 











广义 线性 模型 





logistic 回 归 模 型 属于 广义 线性 模型 (Generalized Linear Model) 的 一 种 ， 
它 是 通常 的 正 态 线性 模型 的 推广 , 它 要 求 响应 变量 只 能 通过 线性 形式 依赖 于 解 
释 变 量 . 上 述 推广 体现 在 两 个 方面 : 















































。 通过 一 个 连接 函数 泛 ， 即 对 响应 变量 期 望 的 变换 , 将 响应 变量 的 期 望 与 解 
释 变 量 建立 线性 关系 











VE(Y)) = Po + BiXit+ PX2 t+ PopXy. 





。 通过 一 个 误差 函数 , 说 明 广义 线性 模型 的 最 后 一 部 分 随机 项 ; 
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表 9.9 给 出 了 广义 线性 模型 中 常见 的 连接 函数 和 误差 函数 . 可 见 , 车 连接 函数 为 
恒 等 变 换 , 误差 函数 为 正 态 分 布 , 则 得 到 通常 的 正 态 线性 模型 . 
































表 9.9 常见 的 连接 函数 和 误差 函数 























变换 连接 函数 回归 模型 典型 误差 钞 数 
恒 等 Wz)=7 E(y) = X'B 正 态 分 布 
对 数 v(x) = In(z) In(E(y)) = XG 泊 漆 分布 
logit V(r) = logit(z) | logit(B(y)) =X | 二 项 分 布 
逆 ( 倒 数 ) | v(xz) = 1/z 1/E(y) = X'O 伽 玛 分 布 





与 广义 线性 模型 有 关 


的 及 函数 : glm( ) 


及 语言 提供 了 拟 合 和 计算 广义 线性 模型 的 函数 glm( ), 其 调用 格式 为 





log<-glm(formula, 





glm( ) 的 调用 格式 


family=family.generator, 





data=data.frame) 








说 明 : formula 为 拟 合 公式 , 其 意义 与 线性 模型 相同 ; family 为 分 布 族 , 包 











布 (gamma), 分 布 族 还 











括 正 态 分 布 (gaussian)、 二 项 分 布 (binomial)、 泊 淞 分 布 (poission) 和 伽 玛 分 





可 通过 选项 1ink= 来 指定 使 用 的 连接 函数 ; data 为 数据 框 . 





1) 基于 正 态 分 布 的 广义 线性 模型 ; 





log<-glm(formula, family = gaussian(link = identity), 
data = data.frame) 














基于 正 态 分 布 族 的 glm( ) 的 调用 格式 









说 明 : link=identity 可 以 不 写 , 因为 正 态 分 布 族 的 连接 函数 默认 值 是 














恒 等 , 再 者 整个 family=gaussian 也 可 以 不 写 , 因为 分 布 族 的 默认 值 是 正 





























态 分 布 . 正 态 分 











布 族 的 广义 线性 模型 等 同 于 一 般 的 线性 模型 , 因此 





> fm <- glm(formula, family = gaussian, data = data.frame) 


等 同 于 
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> fm <- lm(formula, data = data.frame) 





2) 基于 二 项 分 布 的 广义 线性 模型 : 
基于 二 项 分 布 族 的 广义 线性 模型 就 是 本 节 讲 的 logistic 回 归 模 型 ， 因 
此 在 及 软件 中 ， logistic 回 归 分 析 可 以 通过 调用 广义 线性 回归 模型 函 
数 glm( ) 来 实现 , 其 调用 格式 为 
















































































基于 二 项 分 布 族 的 glm( ) 的 调用 格式 


log<-glm(formula, family = binominal (link = logit), 









data = data.frame) 


















说 明 : glm( ) 就 是 R 软 件 中 拟 合 和 计算 广义 线性 模型 的 函数 . 公 
式 formula 有 了 两 种 输入 方法 : 一 种 是 输入 成 功 与 失败 的 次 数 ， 另 一 种 

















像 线性 模型 通常 数据 的 输入 方法 . Link=logit 可 以 不 写 , 因为 1ogit 是 二 
项 分 布 族 连 接 函 数 , 是 默认 状态 . 


3) 基于 泊 泊 分 布 的 广义 线性 模型; 
























































基于 二 项 分 布 族 的 glm( ) 的 调用 格式 


log<-glm(formula, family = poisson(link = log), 







data = data.frame) 





4) 基于 伽 玛 分 布 的 广义 线性 模型 ; 














基于 伽 玛 分 布 族 的 glm( ) 的 调用 格式 


log<-glm(formula, family = gamma(link = inverse), 






data = data.frame) 


















例 9.5.1 ” 表 9.10 为 对 45 名 驾驶 员 的 调查 结果 , 其 中 四 个 变量 的 含义 为 : 

















1) Xi: 表示 视力 状况 , 它 是 一 个 分 类 变量 , 1 表示 好 , 0 表示 有 问题 ); 

2) Xo: 年 龄 (age), 数值 型 ); 

3) Xs: 驾车 (drive) 教 育 , 它 也 是 一 个 分 类 变量 , 1 表示 参 
示 没 有 ; 

4) Y: 一 个 分 类 型 输出 变量 accident, (去 年 是 否 出 过 事故 , 1 表示 出 过 事故 ， 
0 表示 没有 ). 








= 
ms | 
注 
习 
鞭 
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表 9.10 ”对 45 名 驾驶 员 的 调查 结果 
XXX YX XxX, X XI XX X XxX Y 
1 17 1 1 1 68 1 0 0 17 0 0 
1 4 0 0 1 18 1 0 0 45 0 1 
1 48 1 0 1 68 0 0 0 4 0 1 
1 55 0 0 1 48 1 1 0 67 0 0 
1 75 1 1 1 17 0 0 0 55 0 1 
0 35 0 1 1 70 1 1 1 61 1 0 
0 42 1 1 72 1 0 1 19 1 0 
0 57 0 0 1 35 0 1 1 69 0 0 
0 28 0 1 1 19 1 0 ji “地 3 ， 放 1 
0 20 0 1 1 62 1 0 1 19 0 0 
0 38 1 0 0 39 1 1 1 72 1 1 
0 45 0 1 0 40 1 1 1 74 1 0 
0 47 1 1 0 55 0 0 1 31 0 1 
0 52 0 0 0 68 0 1 1 16 1 0 
0 55 0 1 0 25 1 0 1 61 1 0 




















试 考察 前 三 个 变量 X1, X2, Xs 与 发 生 事故 的 关系 
解 














1) 用 数据 框 形式 输入 数据 





> xi<-rep(c(1, 0, 1, 0, 1), c(5, 10, 10, 10, 10)) 

> x2<-c(17, 44, 48, 55, 75, 35, 42, 57,，28，20, 
38，45，47，52，55，68，18，68，48，17， 
70，72，35，19，62，39，40，55，68，25， 
17，45，44，67，55，61，19，69，23，19， 
72，74，31，16，61) ， 

> x3<-c(1，0，1，0，1，0，1，0，0，0，1，0，1，0，0， 
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-03 Ls O08 T1503 Ls L100"05. 1 
0 -0s O05 0 1 Ly 0 95 1 0 二 1) 
> y=e(l, DO 0 0 1 1 1 0 1 1; 0 1 0 1 
0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1,0,， 
0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0) 
> accident<-data.frame(x1, x2, x3, y) 


2) 再 作 logistic 回 归 


> log.glm<-glm(y x1i+x2+x3, family=binomial, data=accident) 


> summary (log.g1lm) 





回归 结果 为 : 


Call: glm(formula =y ”xl+X2+X3， family = binomial， 
data = accident) 


Deviance Residuals: 


Min 1Q Median 3Q Max 
-1.5636 -0.9131 -0.7892 0.9637 1.6000 
Coefficients: 


Estimate Std. Error z value Pr(>|z|) 
(Intercept) 0.597610 0.894831 0.668 0.5042 
x1 -1.496084 0.704861 -2.123 0.0338 * 
X2 -0.001595 0.016758 -0.095 0.9242 
X3 0.315865 0.701093 0.451 0.6523 


Signif. codes: 0 '***! 0.001 '**! 0.01 '*' 0.05 '.' 0.1'"'1 
(Dispersion parameter for binomial family taken to be 1) 
Null deviance: 62.183 on 44 degrees of freedom 

Residual deviance: 57.026 on 41 degrees of freedom 


AIC: 65.026 


Number of Fisher Scoring iterations: 4 
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此 得 到 初步 的 logistic 回 归 模 型 : 














exp(0.5976 — 1.4961 X1 — 0.0016X, + 0.3159Xs) 
1 + exp(0.5976 — 1.4961X1 — 0.0016X, + 0.3159X3) 





即 
logit(p) = 0.5976 — 1.4961X1 — 0.0016X2 + 0.3159X;. 








在 此 模型 中 , 由 于 参数 8, Bs 没有 通过 检验 , 可 类 似 于 线性 模型 , 用 step( 
) 做 变量 筛选 . 
































> log.step<-step(log.glm) 
> summary (log.step) 








计算 结果 为 : 





Start: AIC= 65.03 
y ~ xl + x2 + X3 


Df Deviance AIC 
“2 1 57.035 63.035 
= 3 1 57.232 63.232 
<none> 57.026 65.026 
= 1 61.936 67.936 


Step: AIC= 63.03 
yy 


Df Deviance AIC 
- X3 1 57.241 61.241 
<none> 57.035 63.035 
三 于 1 61.991 65.991 


Step: AIC= 61.24 
y ~ xl 
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Df Deviance AIC 
<none> 57.241 61.241 
— xl 1 62.183 64.183 


Call: glm(formula = y ~ xi, family = binomial, data = accident) 


Deviance Residuals: 


Min 1Q Median 3Q Max 
-1.4490 -0.8783 -0.8783 0.9282 1.5096 
Coefficients: 


Estimate Std. Error z value Pr(>|z|) 
(Intercept) 0.6190 0.4688 1.320 0.1867 
xl1 -1.3728 0.6353 -2.161 0.0307 * 


Signif. codes: 0 '***! 0.001 '**' 0.01 '*' 0.05 '.' 0.1'"'1 
(Dispersion parameter for binomial family taken to be 1) 
Null deviance: 62.183 on 44 degrees of freedom 

Residual deviance: 57.241 on 43 degrees of freedom 


AIC: 61.241 


Number of Fisher Scoring iterations: 4 








可 以 看 出 , 新 的 回归 方程 为 


exp(0.6190 — 1.3728z1) 
1 十 exp(0.6190 — 1.3728z1) 





4) 预测 分 析 : 


log.pre<-predict(log.step, data.frame(x1=1)) 
pi<-exp(log.pre)/(itexp(log.pre));p1 
log.pre<-predict(log.step, data.frame (x1=0)) 


WV YY 


p2<-exp(1og.pre)/(1+exp(1og.pre) ) ;p2 
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运行 得 到 : pi=0.32; pa=0.65, 说 明了 视力 有 问题 司机 发 生 交通 事故 的 概 
率 是 视力 正常 的 司机 的 两 倍 以 上 ， 
国 
第 九 章 习题 


9.1 测 得 10 名 女 中 学 生体 村 
表 9.11 所 示 , 试 画 日 


























EEX1(kg)、 胸 围 X2(cm) 及 肺活量 Y(ml) 的 数据 如 
HY 与 Xi1, Xs 的 散 点 图 , 并 分 析 它 们 之 间 的 相关 关系 . 
































表 9.11 10 名 女 中 学 生体 重 Xi(kg), 胸围 X(cm) 及 肺活量 Y (mJ) 的 值 
Xl 35 40 40 42 37 45 43 37 44 42 
XX 60 74 64 71 72 68 78 66 70 65 
Y |1600 2600 2100 2650 2400 2200 2750 1600 2750 2500 



































































































































9.2 ”考察 温度 对 产量 的 影响 , 测 得 10 组 数据 ( 见 表 9.12) 
表 9.12 温度 对 产量 的 影响 
温度 X/C | 20 25 30 35 40 45 50 55 60 65 
产量 Y/kg | 13.2 15.1 16.4 17.1 17.9 18.7 19.6 21.2 22.5 24.3 
1) 试 建立 处 与 Y 之 间 的 回归 方程 式 ; 
2) 对 其 回归 方程 进行 显著 性 检验 ; 
3) 预测 X = 42°*C 时 产量 的 佑 计 值 及 预测 区 间 ( 置 信和 度 为 95%). 
9.3 ”根据 表 9.13 提 供 的 经 济 数据 ， 
1) 试 画 出 散 点 图 , 判断 国民 收入 (7) 与 消费 量 (X) 是 否 有 线性 关系 ; 








电 


2) 求 出 Y 关 于 





和 的 一 元 线性 回 





归 方 和 





E) 
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表 9.13 我 国 钢材 消费 量 及 国民 收入 











年 份 、 钢 材 消费 量 ”国民 收入 | 年份、 钢材 消费 量 ”国民 收入 

(万 吨 ) ( 亿 元 ) (万 吨 ) ( 亿 元 ) 
1964 698 1097 1973 1765 2286 
1965 872 1284 1974 1762 2311 
1966 988 1502 1975 1960 2003 
1967 807 1394 1976 1902 2435 
1968 738 1303 1977 2013 2625 
1969 1025 1555 1978 2446 2948 
1970 1316 1917 1979 2736 3155 
1971 1539 2051 1980 2825 3372 
1972 1561 2111 











3) 对 方程 作 显著 性 检验 ; 


4) 现 测 得 1981 年 消费 量 X = 3441, 试 给 出 1981 年 国民 收入 的 预测 值 及 相应 
的 区 间 估 计 (a = 0.05). 


9.4 ” 己 知 变量 XX 与 Y 的 观测 值 如 表 9.14 所 示 . 






































I 














1) 画 出 数据 的 散 点 图 , 求 回 归 直 线 Y = B60 十 BiX, 同时 将 回归 直线 也 画 在 
散 点 图 上 ; 


2) 对 回归 模型 与 参数 分 别 进行 F 检 验 和 t 检 验 ; 


3) 画 出 残 差 (普通 残 差 和 标准 残 差 ) 与 预测 值 的 残 差 图 , 分 析 误 差 是 否 是 等 方 
差 的 ; 
4) 修正 模型 . 对 响应 变量 y 作 开 方 , 再 完成 (1) 一 (3) 的 工作 . 


















































































































































9.5” 某 厂 生产 的 一 种 电器 的 年 销售 量 Y 与 竞争 对 手 的 价格 Xi 及 本 厂 的 价 
格 X2 有 关 . 表 9.15 是 10 个 城市 中 记录 的 资料 . 
































RS 
T 
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1) 建立 Y 与 X1 及 Xs 的 回归 关系 , 并 说 明 回归 方程 式 在 a = 0.05 的 水 平 上 是 
否 显著 ? 并 解释 回归 系数 的 含义 ; 
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表 9.14 数据 表 
序号 | 和 立 |‖ 序 号 | 和 YY 序号 | XX YY 
1 1 0.6 11 4 3.5 21 8 17.5 
2 1 1.6 12 4 4.4 22 8 13.4 
3 1 0.5 13 4 5.1 23 8 4.5 
4 1 1.2 14 5 -5.7 24 9 30.4 
5 2 2.0 15 6 3.4 25 | 11 12.4 
6 2 1.3 16 6 9.7 26 | 12 13.4 
7 2 2.5 17 6 8.6 27 | 12 26.2 
8 3 2.2 18 7 4.0 28 | 12 7.4 
9 3 2.4 19 7 5.5 
10 3 1.2 20 7 10.5 






































2) 对 回归 模型 







































































3) 已 知 某 城市 中 本 厂 电器 的 售 
] 上 述 建立 起 来 的 回归 模型 预测 该 城市 






































+ 进行 初步 诊断 , 并 指出 有 无 可 疑点 或 异常 点 ? 











表 9.15 10 个 城市 某 种 电器 的 年 销售 量 和 竞争 对 手 价格 (单位 : 元 ) 
XI X YX X Y 
120 100 102 | 140 110 100 
190 90 120 | 130 150 77 
155 210 46 | 175 150 93 
125 250 26 | 145 270 69 
180 300 65 | 150 250 85 


价 X2 = 160 元 , 竞争 对 手 售 价 X1 = 170 元 , 使 


的 年 销售 量 ; 











4) 您 能 否 建立 系数 R? > 0.68, 模型 中 所 有 回归 系数 在 0.10 水 平 上 是 显著 的 











回归 模型 





! (考虑 二 次 项 入 

















9.6 0 


学 家 工资 








额 了 与 他 们 的 研 





[交叉 项 , 用 逐步 
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回归 法 ). 
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文 、 著 作 等) 的 质量 指标 Xi， 从 事 丰 











究 的 工作 人 员 中 , 高 水 平 的 数 


























究 工作 
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的 时 间 Xz 以 及 能 成 功 获得 资助 的 指标 Xs 之 间 的 关系 , 为 此 按 一 定 的 设计 方案 
调查 了 24 位 此 类 型 的 数学 家 , 如 表 9.16. 














表 9.16 24 位 数学 家 工资 额 及 相关 指标 的 调查 数据 











序号 YY XI 又 Xs | 序号 立 XI X, X; 
1 332 35 9 6.1| 13 43.3 8.0 23 7.6 
2 403 53 20 64| 14 441 5.6 35 7.0 
3 387 5.1 18 74|1 15 42.8 6.6 39 5.0 
4 46.8 58 33 6.7| 16 336 37 31 4.4 
5 41.4 42 31 7.5 17 34.2 6.2 7 5.5 
6 375 6.0 13 5.9| 18 48.0 7.0 40 7.0 
7 39.0 6.8 25 6.0| 19 38.0 40 35 6.0 
8 40.7 55 30 40| 20 35.9 45 23 3.5 
9 301 31 5 5.8| 21 40.4 5.9 33 4.0 
10 529 72 47 8.3| 22 36.8 56 27 43 
11 38.2 4.5 25 5.0 23 45.2 4.8 34 8.0 
12 31.8 49 11 6.4 24 35.1 3.9 15 5.0 











1) 假设 误差 服从 N(0,o2) 分 布 ,建立 7 与 Xi，X2 和 X3s 之 间 的 线性 回归 方程 
并 研究 相应 的 统计 推 新 问题 , 作 相应 的 诊断 和 检验 ; 














2) 假定 某 位 数学 家 的 关于 Xj， 及 2， Xs 的 值 为 (zol, X02, X03) = (5.1, 20, 7.2), 
试 预 测 他 的 年 工资 额 , 并 给 出 置信 和 度 为 95% 的 置信 区 间 . 


9.7 ” 某 种 水 泥 在 凝固 时 放出 的 热量 Y(cal/g) 与 水 泥 中 四 种 化 学 成 分 Xi1, X，, 
Xs, Xi 有关, 现 测 得 13 组 数据 , 如 表 9.17 所 示 . 















































1) 希望 从 中 选 出 主要 变量 , 建立 Y 与 它们 的 回归 方程 ; 


2) 考查 X1, X2, Xs, Xs 之 间 是 否 存 在 多 重 共 线性 ; 











3) 分 析 用 函数 step( ) 去 掉 的 变量 是 否 合 理 . 
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表 9.17 水 泥 在 凝固 时 放出 的 热量 与 四 种 化 学 成 分 
序号 X! XXX XX, Xi， X, Xs X, 
1 26 6 60 78.5 31 22 44 72.5 
2 29 15 52 74.3 54 18 22 93.1 
3 56 8 50 104.3 47 4 26 115.9 
4 31 8 47 87.6 40 23 34 83.8 
5 52 6 33 95.9 66 9 12 113.3 
6 55 9 22 109.2 68 8 12 109.4 
7 Th ly 102.7 
表 9.18 两 种 疗法 对 不 同 病 情 的 某 病 的 疗效 
病情 无 效 (0) 
甲 药 (0) 轻 (1) 64 
重 (0) 82 
乙 药 (1) 轻 (1) 18 
重 (0) 35 
两 药 (2) 轻 (1) 26 
重 (0) 37 
9.8 ” 某 研究 者 欲 比 较 3 个 不 同 的 药物 治疗 病情 不 同 的 某 病 的 效果 , 研究 数据 


见 表 9.18, 试 对 数据 进行 logistic 回 归 分 析 , 并 人 
表 9.19 是 40 名 肺癌 病人 的 生存 资料 其 中 Xi 表示 生活 行为 能 力 评 
诊断 到 进入 研究 时 间 ( 月 ); X4 表 
“2” 是 腺 瘤 ,“3” 是 大 型 细胞 
去 (“1” 是 常规 ,“0” 是 试验 新 法 ); Y 表 示 病 人 的 生存 


9.9 


分 (1 到 100); Xz 表示 病人 的 
(“0” 是 鳞 靖 ， 
癌 ); Xs 表示 两 种 化 疗 方 当 


示 肿 瘤 











F 龄 (年 ); Xs 表示 
































“12 是 小 型 纪 

















日 应 的 统计 推断 . 





















































时 间 (“0” 是 生存 时 间 短 , 即 生存 时 间 小 于 200 天 ;“1” 表 示 生 存 时 间 长 , 即 生存 
时 间 大 于 或 等 于 200 天 ). 
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表 9.19 ”40 名 肺癌 病人 的 生存 资料 
序号 | XX X，。 Xs X41 Xs 立 |‖ 序号 | X; X,。 Xs Xs X; Y 
1 |70 64 5 1 1 1|21|160 37 13 1 1 0 
2 |60 63 9 1 1 0| 2 1.90 54 12 1 0 1 
3 |70 65 11 1 1 012 150 52 8 1 0 1 
4 140 6 10 1 1 0 24|170 50 7 1 0 1 
5 |40 63 58 1 1 0 25 |120 65 21 1 0 0 
6 |70 48 9 1 1 0| 2 |180 52 28 1 0 1 
7 |70 48 11 1 1 0| 27 160 70 13 1 0 0 
8 |80 63 4 2 1 0|28|150 40 13 1 0 0 
9 |60 63 14 2 1 0|29 |170 3 22 2 0 0 
10 |30 53 4 2 1 0|30|140 4 36 2 0 0 
11 |80 43 12 2 1 0| 31|130 54 9 2 0 0 
12 |40 55 2 2 1 0| 32|130 59 87 2 0 0 
13 |60 66 25 2 1 1| 33|140 69 5 3 0 0 
14 |40 67 23 2 1 0 34|160 50 22 3 0 0 
15 |20 61 19 3 1 0| 35 |180 62 4 3 0 0 
16 |50 63 4 3 1 0| 3 |70 68 15 0 0 0 
17 |50 66 16 0 1 0| 37|30 39 4 0 0 0 
18 |40 68 12 0 1 0| 3 |160 4 1 0 0 0 
19 |80 4 12 0 1 1|39 18 64 10 0 0 1 
20 |70 53 8 0 1 1|40 170 67 18 0 0 1 








1) 建立 P(Y=1) 对 Xt ~Xs 的 logistic 回 归 模 型 , XI ~Xs 对 P(Y=1) 的 综合 影 


2) 用 





逐步 回归 法 选取 








大 于 或 等 于 200 天 的 相 





















































如 何 ? 哪 一 个 模型 更 合理 ? 




















响 是 否 显著 ? 哪些 变量 是 主要 的 影响 因素 , 显著 水 平 如 何 ? 计算 各 病人 生 
存 时 间 大 于 等 于 200 天 的 概率 估计 值 ; 
变量 , 结果 如 何 ? 在 所 选 模型 下 , 计算 病人 生存 时 间 
既 率 估计 值 , 并 将 计算 结果 与 (1) 中 模型 作 比 较 , 差异 
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本 章 概要 
4 主 成 分 分 析 与 因子 分 析 
人 判别 分 析 
人 聚 类 分 析 
O 典型 相关 分 析 
仿 对 应 分 析 




















多 元 统计 分 析 (Multivariable Statistical Analysis) 也 称 多 变量 统计 
分 析 、 多 因素 统计 分 析 或 多 元 分 析 , 是 研究 客观 事物 中 多 变量 (多 因素 或 多 指 
标 ) 之 间 的 相互 关系 和 多 样品 对 象 之 间 差 异 以 及 以 多 个 变量 为 代表 的 多 元 随机 
变量 之 间 的 依赖 和 差异 的 现代 统计 分 析 理 论 和 方法 . 

主 成 分 分 析 与 因子 分 析 的 目的 是 寻找 多 个 变量 的 “代表 ”, 判别 分 析 能 将 
对 象 分 类 到 已 知 类 别 中 , 聚 类 分 析 按 照 一 定 的 尺度 把 对 象 分 类 , 典型 相关 分 析 
研究 两 组 变量 之 间 的 相关 问题 ,对 应 分 析 探 究 行列 变量 的 关系 . 










































































8$10.1 ” 主 成 分 分 析 与 因子 分 析 














做 衣服 时 , 需要 测量 人 体 的 许多 尺寸 , 如 上 体 长 , 手 辟 长 , 胸围 , 颈 围 , 总 肩 
宽 等 等 . 然而 ,这 些 量 之 间 是 否 有 联系 的 ,能 否 选 出 它们 的 某 个 线性 组 合 ,使 之 基 
本 能 够 刻画 人 对 服装 的 要 求 . 若 能 , 选 出 的 线性 组 合 就 是 诸多 尺寸 的 主 成 分 或 
称 主 分 量 . 

主 成 分 分 析 (Principle Component Analysis) 是 把 多 维 空 间 的 相关 多 变 
量 的 数据 集 , 通过 降 维 化 简 为 少量 而 且 相 互 独立 的 新 综合 指标 , 同时 又 使 简化 
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后 的 








有 一 


上 且 . 
里 














学 生 的 知识 点 





新 综合 指标 尽 可 能 多 的 包括 原 指标 群 中 的 主要 信息 , 或 
有 指标 的 主 


为 了 测验 9 


要 信息 的 一 种 多 元 统计 分 析 方 法 . 


能 力 , 出 40 
得 分 , 这 是 可 以 观测 的 随机 变量 , 我 们 
来 解释 这 40 个 随机 变量 . 





这 种 分 析 称 为 因 


一 般 不 和 有 de 


达能 力 , 推 
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因 








共 因 
数 “潜在 
综合 因 








子 分 析 (Factor Analysis) 
查尔斯 。 皮 尔 逊 (Chales.S$.Pearson) 提 出 , 主 
依赖 关系 , 把 多 个 显 在 的 变量 
子 , 来 说 明 复 杂 多 变量 








因子 ”之 间 的 内 和 如 








oz 
综合 大 


能 力 ,艺术 修养 能 力 , 历 史 知 识 和 生活 常识 等 ,所 以 





最 早 于 1904 年 由 英 


主 成 分 的 简要 定义 与 计算 


10.1.1 
定义 10.1.1 设 X = (人 
若 向 量 首 = (给 ,tt,… 好) 








称 页 = 妇 X 是 X 的 第 一 主 成 分 或 第 一 主 分 量 ; 若 抽 


， 








二 主 成 分 或 多 
由 定义 可 见 , 六 





全 全 3 


a 


分 量 等 等 . 














TL1, 2X2," 


在 条 件 





少数 几 个 不 可 观测 的 
系统 的 内 部 结构 , 并 解释 原始 显 在 复杂 
EE 联系 和 相关 关系 . 然后 , 根据 专 } 
子 所 反映 的 独特 含义 进行 命名 和 人 解释 的 一 种 多 元 统计 分 析 方 法 . 


| = 1 


是 尽 











道 让 若干 学 生 





题目 ， 





能 不 损失 原 


2 


回答 , 每 道 题目 


























,但 却 是 有 实际 意义 


希望 找 出 有 限 个 不 可 
子 分 析 . 这 种 不 可 观测 的 潜在 变量 


观测 的 潜在 变 








的 , 例如 语言 表 














也 

















因 


著名 统计 学 家 、 





子 分 析 是 寻求 





心理 学 家 








要 目的 是 下 








上 上 知 访 


究 相关 算 阵 的 内 在 
“潜在 











因子 ”或 称 公 
变量 与 少 
只 和 定性 分 析 对 

















随机 向 量 
下 使 得 


三 








) 2Zp)' 征 7 














尽 可 能 多 地 反映 原来 p 个 变量 的 信 |， 
下 尽 可 能 多 地 反映 原来 p 个 变量 的 信息 











的 计算 公式 . 
定理 10.1.1 “” 设 X 为 p 维 
分 为 = tX,i = 1,2,… ,p, 其 中 Var(Y; 


第 i 个 特征 值 ; t; 是 和 ;的 特征 向 量 . 
定义 10.1.2 Ww/ 和 
a ei 亲人 























息 , 这 样 继续 下 去 . 定 ] 














) = 入 是 的 打 





量 ， 二 阶 矩 存在 ， 
Var( 人 和 X) 最 大 ， 则 
可 量 妨 二 (£81, t22, 汪 
tz| = 1, Cov(t5 久 ,于 ) = 0 下 使 得 Var( 龙 和) 最 大 , 则 称 玲 = 区 和 是 和 的 


,3) 





昌 , 屯 在 与 五 不 相关 条 件 
蛙 10.1.1 纶 


会 出 主 成 分 





随机 向 量 , Cov(X) = 了 3 存在 , 则 X 的 第 ;个 主 成 
寺 征 值 从 大 到 小 排序 后 











尔 为 主 成 分 远 的 方差 页 献 率 ; 3 Xi/ >» 和 Xi 称 为 主 


Yi 的 累计 方差 贡献 率 ， 雹 与 XX 第 i 个 分 量 的 相关 系数 ptz,, 芭 ) 称 


易 证 明 p(zxi, 芭 ) = Metri/ Oi 其 中 2 是 x; 的 方差 ， tri 是 妇 第 i 个 分 量 . 
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通常 取 m 使 六 , 记 ,… ,Yi 的 累计 方差 页 献 率 达到 70% 或 80% 以 上 , 然后 考 
虑 用 六 ,二 ,…. ,了 来 描述 的 性 质 . 

在 实际 问题 中 , X 的 不 同 分 量 有 时 有 不 同 的 量 纲 , 量 纲 变 小 时 该 分 量 的 方 
差 会 变 大 , 从 而 在 主 成 分 中 变 得 突出 , 造成 不 合理 的 结果 . 为 了 避免 量 纲 的 影 
响 , 常常 将 随机 变量 都 标准 化 , 令 




















































































































) i= Liss ,Pp (10-1.1) 




















X* 一 ( 022.… ,Xs)', 再 来 求 X* 的 主 成 分 , 而 X* 的 协 差 阵 就 是 X* 的 相 
关 阵 , 也 是 和 的 相关 阵 尺 , 因此 我 们 如 下 的 定理 . 

定理 10.1.2” 设 X 的 相关 阵 为 R， 其 特征 值 M* > 入 二 .> 入 
相应 特征 向 量 为 绎 , 奉 ,… , 秦 ， 则 XX* 的 主 成 分 分 别 是 YY = XX*,Yz 
砂 XY XK 与 主 成 分 Y* 的 相关 系数 (因子 载荷 
量 ) 为 p(z# 了 ) = VSt， 其 中 碟 是 磁 的 第 ?个 分 量 . 

实际 问题 中 协 差 阵 、 相 关 阵 都 是 未 知 的 , 总 用 样本 协 差 阵 与 样本 相关 阵 
代替 , 这 样 是 有 道理 的 : 若 X ~ N(n, 允 ), 衬 是 2 的 极 大 似 然 估计 , 立 的 特征 值 
为 vi 关 如 类 …> 姓 ， 相 应 单位 特征 向 量 避 ,和 ,wy; 而 2 的 特征 值 , 特征 向 
量 为 Ai 之 和 2 纪 … 之 Xpjti;t2,… ,tp. 则 可 以 证 明 

定理 10.1.3 viv 有功 是 XXX 的 极 大 似 然 估计 ， 
222 是 二 , 妇 ,如 的 极 大 似 然 估计 . 
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p) 



















































































10.1.2” 主 成 分 RR 通用 程序 


利用 及 语言 的 princomp( ) 函 数 就 可 完成 主 成 分 分 析 , princomp( ) 的 二 
种 调用 格式 如 下 : 








princomp( ) 的 调用 格式 -1 


princomp(formula, data = NULL, subset, na.action, ... 





或 者 





princomp( ) 的 调用 格式 -2 
| princomp(x, cor = FALSE, scores = TRUE, covmat = NULL, ] 
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subset = rep(TRUE, nrow(as.matrix(x))), ...) 


说 明 : formula 是 没有 响应 变量 的 公式 ; x 是 用 了 
当 cor=TRUE 表 示 用 样本 的 相关 阵 及 作 主 成 分 分 析 ,， 否则 


cor 是 逻 辑 变 量 ， 





























主 成 分 分 析 的 数据 ; 





当 cor=FALSE( 上 默认 选项 ) 表 示 用 样本 的 协 方差 阵 S 作 主 成 分 , 具体 说 明 见 及 帮 


助 . 
例 10.1.1 





学 生 , 测 量 其 身高 (Xi),， 体 习 








(学 4 


























E 号 体 4 项 指标 的 主 成 分 分 析 ) 随机 提 
EE(X2), 胸围 





1] 取 30 名 某 年 级 中 














(Xs), 坐 高 (X4), 数据 如 下 表 所 示 , 试 对 
这 30 名 学 生 身 体 四 项 指标 作 主 成 分 分 析 . 





表 10.1 30 名 学 生 的 4 项 指标 








序号 | X! XX。 X33 X: 序号 | XI XX。  X XI4 
1 148 41 72 78 2 139 34 71 76 
3 160 49 77 86 4 149 C36 67 79 
5 159 45 80 86 6 142 31 66 76 
7 153 -43 76 83 8 150 -43 77 79 
9 151 42 77 80 10 139 31 68 74 
11 140 29 64 74 12 161 47 78 84 
13 158 49 78 83 14 140 -33 67 77 
15 137 31 66 73 16 152 35 73 79 
17 149 47 82 79 18 145 35 70 77 
19 160 47 74 87 20 156 44 78 85 
21 151 42 73 82 22 147 38 73 78 
23 157 39 68 80 24 147 30 65 75 
25 157 48 80 88 26 下 本 36 74 80 
27 144 36 68 76 28 141 30 67 76 
29 139 32 68 73 30 148 38 70 78 

















解 及 程序 如 下 : 
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319 ， 





> student<-data.frame( 
X1=c(148，139，160，149， 
140，161，158，140， 
151，147，157，147， 
X2=c(41，34，49，36，45， 
29，47，49，33，31， 
42，38，39，30，48， 
X3=c(72，71，77，67，80， 
64，78，78，67，66， 
73，73，68，65，80， 
X4=c(78，76，86，79，86， 
74，84，83，77，73， 
82，78，80，75，88， 
) 


159 ， 
137 ， 
157 ， 


已 业 3 
35 ， 
36 ， 
66 ， 
73， 
74， 
76 ， 
79 ， 
80 ， 


> Student .pr<-Princomp(student ， 








计算 结果 为 : 


Importance of components: 


Comp.1 
1.8817805 0.55980636 0.28179594 0.25711844 


Standard deviation 


142，153， 
152，149 ， 
151，144， 


1 
1 


43，43，42， 
47， 
32， 
77， 
74， 
68 ， 
80 ， 
87， 
73， 


47，35， 
36，30， 
76，77， 
82，70， 
68，67， 
83，79， 
93 “CE, 
76, 76, 


cor=TRUE) 
> summary(student .pr,1loadings=TRUE) 


Comp.2 


50，151，139， 
45，160，156， 


Comp .3 Comp .4 


Proportion of Variance 0.8852745 0.07834579 0.01985224 0.01652747 
Cumulative Proportion 0.8852745 0.96362029 0.98347253 1.00000000 


Loadings: 


X1 
X2 
X3 
X4 


Comp.1 Comp.2 Comp.3 Comp.4 
-0.497 0.543 -0.450 0.506 
-0.515 -0.210 -0.462 -0.691 
-0.481 -0.725 0.175 0.461 
-0.507 0.368 0.744 -0.232 





对 上 述 结果 我 们 作 一 些 说 明 : 





1) Standard deviation: 表示 主 成 分 的 标准 








相应 特征 值 的 开 方 ; 























即 

















主 成 分 的 方差 平方 村 





i 


即 
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2) Proportion of Variance: 表示 方差 的 贡献 率 ; 





3) Cumulative Proportion: 表示 方差 的 累计 页 献 率 . 




















4) 用 summmary 函 数 中 loadings=TRUE 选 项 列 出 了 主 成 分 对 应 原始 变量 的 系 
数 , 因此 得 到 前 两 个 主 成 分 是 


Y= —0.497z7 + 0.5437x3 一 0.45073 + 0.506z¥ 











Y2 = —0.515zx¥ — 0.210x» 一 0.46273 + 0.691z3 


于 前 两 个 主 成 分 的 累计 页 献 率 已 经 达到 96.36%, 所 以 取 前 两 个 主 成 分 


















































ol 
| 


对 于 主 成 分 的 解释 ， 由 六 的 系数 都 接近 与 0.5, 它 反映 学 生 身材 的 鬼 
梧 程 度 ,因此 我 们 称 第 一 主 成 分 为 大 小 因子 (魁梧 因子 ); 蕊 的 系数 中 体 
重 (Xs) 和 胸围 (Xs) 为 正 值 , 它 反映 学 生 的 胖 瘦 情况 , 故 称 第 二 主 成 分 为 形 
状 因子 (或 胖 瘦 因子 ). 















































10.1.3 ”因子 分 析 的 简要 定义 与 计算 




















因子 分 析 方 法 根据 研究 对 象 和 分 析 方 法 的 不 同 , 分 为 R 型 和 Q 型 两 种 不 同 
的 类 型 . R 型 因子 分 析 研 究 指标 (变量 ) 之 间 的 相互 关系 , 通过 对 多 变量 相关 系 
数 和 矩阵 内 部 结构 的 研究 , 找 出 控制 所 有 变量 的 几 个 主因 子 ( 主 成 分 ); Q 型 因子 
分 析 研 究 样 品 之 间 控 制 所 有 样品 的 几 个 主要 因素 . 由 于 这 两 种 因子 分 析 方 法 的 
相关 关系 , 所 以 通过 样品 相似 系数 矩阵 与 通过 变量 相关 系数 矩 阵 内 部 结构 的 和 
究 , 找 出 分 析 的 全 部 运算 过 程 都 是 一 样 的 , 只 是 出 发 点 不 同 而 已 . R 型 分 析 从 相 
关系 数 矩 阵 出 发 , Q 型 分 析 从 相似 系数 矩阵 出 发 , 对 于 同一 批 观测 数据 , 可 根据 
所 要 求 的 目的 决定 采用 哪 一 类 型 的 分 析 . 只 是 R 型 分 析 须 考虑 变量 量 纲 及 数量 
级 , 而 Q 型 分 析 则 不 必 考 虑 这 一 问题 , 在 多 变量 的 量 纲 及 数量 级 差别 很 大 时 , 更 
为 方便 . 而 对 于 同一 批 观测 数据 , 可 以 根据 其 所 要 求 的 目的 而 决定 采用 哪 一 类 
型 的 分 析 . 

定义 10.1.3 ” 设 X 为 p x 1 随机 向 量 , 其 均值 为 1, 协 差 阵 为 = (oi;)， 
若 叉 能 表示 为 




























































































































































































X=u1+Af+u (10-1.2) 
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其 中 是 p x 未知 常 数 阵 , /是 上 x 1 随机 变量 , 1 是 p x 1 随机 向 量 , 且 
E(f) = 0,Var(f)=I 
E(n) SE 0, Var(1) =Y= diag( V1, V3, ee , Wy, ) (10-1.3) 
Cov(f,1) =0 
则 X = 十 Af 十 wu 称 为 X 有 k 个 因子 的 因子 分 析 模 型 ， f 称 为 公共 因子 , 1 称 为 
特殊 因子 , 2 叫做 因子 载荷 矩阵 , 其 元 素 65 是 第 ;个 变量 在 第 7 个 因子 上 的 载荷 . 





由 








其 中 成 反映 了 公共 








上 面 的 关系 我 们 可 见 Cov(X) = AA' 十 更 = 允 , 从 而 2 对 角 线 上 元 素 





k 
oi = > += + ,i= 1,2,... 
j=1 


"Pp 























因子 对 XX; 的 影响 , 称 为 


同上 度 或 


性 方差 ， 





























值得 汉 








FE 意 的 是 ， 








因子 载荷 不 是 唯一 的 ， 











示 成 X= 十 (AT)(Tf) 1- 

















仍然 成 立 , 因 








实际 问题 中 


估计 因 





提取 因 

















半 伟 小 
于 六子 








子 f 鸡 





子 载荷 , 并 给 公 因 


模型 X = 二 AF 二 ua 




















子 载荷 的 不 唯 
, 总 是 给 出 随机 向 量 的 m 个 观 讽 
子 赋予 有 实际 背景 的 解释 . 


月 味 


性 , 使 得 我 们 有 更 多 地 选择 































































































常用 的 有 主 成 分 分 析 、 主 























个 公共 


因 


























使 *f 和 AT 有 全 
通过 旋转 公 因 














二 上 








子 , 可 以 减少 随意 性 . 所 以 作 公 





Hu 将 AE 作 为 因子 载荷 , Tf 作为 公 


若 T 是 任意 k 阶 正 交 阵 , 则 XX 可 以 

















~ 


(10-1.4) 


人 





因子 , 则 (3) 式 
余地 , 反而 是 有 利 的 . 








I 值 , 从 而 得 到 样本 方差 阵 , 进 


因子 分 析 、 和 友 代 主因 


公共 











而 


4 可 用 样本 均值 来 估计 . 允 可 用 3(X 介 一 下 )(X 中 一 
= 

下 )/(n 一 估计 , 其 中 XGO 是 随机 向 量 的 第 ;次 观察 值 . 

子 的 方法 有 多 种 ， 

析 、 极 大 似 然 分 析 等 , 用 上 述 方法 之 一 估计 出 参数 后 , 还 必须 对 得 

因子 进行 解释 , 对 每 

以 和 实际 问题 相对 应 , 这 时 需要 通过 某 个 了 





到 的 





子 要 给 出 一 个 名 称 , 说 明 其 作用 . 有 时 公 
E 交 阵 T 作 
f 明 的 实际 意义 . 另外 一 方面 , 上 述 方法 估计 参数 带 有 随意 性 ， 
因子 旋转 是 有 必要 的 . 有 最 大 





因子 旋转 ， 

















人 








方差 旋转 、 最 大 均 方 旋转 等 旋转 方法 . 


因 | 
个 方面 : 





1) 因 





子 分 析 与 主 成 分 分 析 的 形式 上 类 似 , 但 有 着 明显 的 区 别 , 主要 表现 在 五 


子 分 析 需 要 构造 
子 ) 与 特殊 


























因子 模型 , 是 把 原 观 测 变量 表现 为 





公共 











因 





子 (新 综合 因 





因子 的 有 机 组 合 模型 .而 主 成 分 分 析 不 能 作为 一 个 模型 来 描 
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述 , 只 能 作为 通常 的 变量 变换 , 也 就 是 把 新 综合 变量 表现 为 原 多 变量 的 线 
性 变换 (组 合 ); 


2) 在 理论 上 主 成 分 分 忆 en er re dd 
的 , 它 是 把 一 组 具有 相关 性 的 变量 变换 为 一 组 新 的 独立 变量 . 而 因子 分 析 
ee 目 尽 可 能 少 , 以 便 尽 可 能 
构造 一 个 结构 简单 的 模型 ; 


3) 因子 分 析 是 把 原 观测 变量 表示 为 新 综合 因子 的 线性 组 合 , 即 新 因子 的 综 
合 指标 , 而 主 成 分 分 析 是 把 主 分 量 表示 为 原 观测 变量 的 线性 组 合 . 另外 ， 
因子 分 析 模 型 在 形式 上 与 线性 回归 模型 相似 , 但 两 者 之 间 有 本 质 的 区 别 : 
回归 模型 中 的 自 变 量 是 可 观测 的 , 而 因子 模型 中 各 个 公共 因子 是 不 可 观 
测 的 潜在 因子 , 而 且 两 个 模型 的 参数 意义 上 很 不 相同 ; 


主 成 分 分 析 的 数学 模型 实质 上 是 一 种 变换 , 而 因子 分 析 模 型 是 描述 原 指 
标 X 协 差 阵 王 结 构 的 一 种 模型 ; 


5) 在 主 成 分 分 析 中 每 个 主 成 分 相应 的 系数 是 唯一 确定 的 , 而 在 因子 分 析 中 
每 个 因子 的 相应 系数 不 是 唯一 的 , 即 因子 载荷 阵 不 是 唯一 的 . 
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六 -一 





















































10.1.4 ”因子 分 析 R 通 用 程序 











利用 RR 语言 的 factanal( ) 函 数 就 可 
下 : 


成 因子 分 析 , 其 基本 的 调用 格式 如 





tt 





factanal( ) 的 调用 格式 


factanal(x, factors, data = NULL, covmat = NULL, n.obs = NA， 


subset, na.action, start = NULL, 





scores = c('"none", "regression", "Bartlett"), 


rotation = "varimax", control = NULL, ...) 


说 明 : x 是 用 于 因子 分 析 的 数据 ; factors 表 示 因 子 个 数 , scores 表 示 选 用 因 
子 得 分 的 方法 , rotation = "varimax" 表 示 用 最 大 方差 旋转 , 具体 说 明 见 及 帮 
助 . 

例 10.1.2 100 名 学 生 六 门 课程 (数学 、 物理 化学、 语文 、 历 史 、 喘 语 ) 的 
成 绩 如 下 表 ( 只 列 出 了 部 分 , 数据 在 student.txt). 目前 的 问题 是 , 能 不 能 把 这 个 
数据 的 6 个 变量 用 一 两 个 综合 变量 来 表示 呢 ? 这 一 两 个 综合 变量 包含 有 多 少 原 
来 的 信息 呢 ? 怎么 解释 它们 呢 ? 





























































































































10.1 主 成 分 分 析 与 因子 分 析 


323. 








表 10.2 100 名 学 9 








六 门 课程 成 绩 











学 生 代 码 | 数学 ”物理 化 学 语文 历史 英语 
1 65 61 72 84 81 79 
2 77 77 76 64 70 55 
3 67 63 49 65 67 57 
4 80 69 75 74 74 63 
5 74 70 80 84 81 74 
6 78 84 75 62 71 64 
7 66 71 67 52 65 57 
8 77 71 57 72 86 71 
9 83 100 99 41 67 50 








解 RR 程序 如 下 : 





> student<-read.table("D:/Rdata/student .txt") 


> names(student)=c("math", "phi", 


> fa<-factanal (student, factors=2) 


> fa 


R 程 序 结果 : 





Call: factanal (x = 


Uniquenesses : 


math phi chem 


student, 


1it 


his 


factors 


eng 


0.245 0.451 0.479 0.136 0.215 0.181 


Loadings: 


FEactor1 Factor2 


math -0.355 
phi -0.201 


0.793 
0.713 


"chemy nl1it" his" "eng") 
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chem -0.216 0.689 
lit 0.850 -0.376 
his 0.854 -0.235 
eng 0.872 -0.242 


Factorl1 Factor2 
SS loadings 2.425 1.868 
Proportion Var 0.404 0.311 
Cumulative Var 0.404 0.716 


Test of the hypothesis that 2 factors are sufficient. 
The chi square statistic is 0.39 on 4 degrees of freedom. 
The p-value is 0.983 


结果 说 明 : 




















1) 我 们 用 zi,za, Xs, za, TY5, Xe 来 表示 math( 数 学 ), phys( 物 理 )，chem( 化 学 )， 
literat( 语 文 )，history( 历 史 )，english( 英 语 ) 等 变量 . 这 样 因 
子 凡 和 与 这 些 原 变 量 之 间 的 关系 是 








z1 = —0.355f1 + 0.793 户 
za = —0.201f1 + 0.713f 
za = —0.216f1 + 0.689 户 
za = 0.850f1 一 0.376 户 
zs = 0.854f1 — 0.235 
x6 = 0.872 亡 — 0.242 





(10-1.5) 


























这 里 , 第 一 个 因子 主要 和 语文 、 历 史 、 英语 三 科 有 很 强 的 正 相 关 , 相关 系 
数 分 别 为 0.850, 0.854, 0.872; 而 第 二 个 因子 主要 和 数学 、 物理、 化 学 三 科 
有 很 强 的 正 相 关 相 关系 数 分 别 为 0.793, 0.713, 0.689. 因 此 可 以 给 第 一 个 因 
子 起 名 为 “文科 因子 ”, 而 给 第 二 个 因子 起 名 为 “理科 因子 ”. 






























































2) Proportion Var 是 方差 页 献 率 , Cumulative Var 是 累计 方差 贡献 率 , 检 
验 表 明 两 个 因子 已 经 充分 . 
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810.2 ”判别 分 析 





判别 分 析 是 用 于 判断 样品 所 属 类 型 的 一 种 统计 分 析 方法 .判别 分 析 的 目 
的 是 对 已 知 归 类 的 数据 建立 由 数值 指标 构成 的 归 类 规则 , 然后 把 这 样 的 规则 应 
用 到 未 知 归 类 的 样品 去 归 类 . 在 生产 、 科 研 和 日 常生 活 中 经 常会 遇 到 如 何 根据 
观测 到 的 数据 资料 对 所 研究 的 对 象 进行 判别 归 类 的 问题 , 例如 一 个 病人 肺 部 有 
阴影, 医生 需要 判断 他 患 的 是 肺结核 、 肺 部 良性 肿瘤 还 是 肺癌 . 这 里 , 肺结核 病 
人 , 肺 部 良性 肿瘤 病人 和 肺癌 病人 组 成 了 三 个 总 体 , 病人 可 能 就 来 源 于 这 三 个 
总 体 之 一 , 判别 分 析 的 目的 是 通过 病人 的 指标 (阴影 大 小 , 阴影 部 位 , 边缘 是 否 
光滑 , 是 否 有 交 , 是 否 有 热度 …) 来 判断 他 该 属于 哪个 总 体 ( 即 判别 他 生 的 是 什 
么 病 )， 又 如 根据 已 有 的 气象 资料 (气温 , 气压 等) 来 判断 明天 是 晴天 还 是 阴 天 ， 
是 有 雨 还 是 无 雨 , 所 以 判别 分 析 是 应 用 性 很 强 的 一 种 多 元 分 析 的 方法 . 

判别 分 析 的 一 般 提 法 是 : 设 有 k 个 总 体 G1, G2,… ,Gw 已 知 样品 X 来 自 
这 k 个 总 体 的 某 一 个 , 但 不 知 它 究竟 来 自 哪 一 个 . 判别 分 析 就 是 要 根据 对 这 k 个 
总 体 的 已 知 知识 (由 过 去 的 经 验 或 抽样 获得 ) 和 待 判 样品 的 一 些 指 标的 观测 什 
去 判别 样品 X 应 归属 于 哪 一 个 总 体 . 


如 同 经 典 的 数理 统计 分 析 , 我 们 对 于 这 k 个 总 体 G1,G2,… ,Gi 的 
了 解 程度 在 不 同 的 场合 不 尽 相 同 . 有 时 其 分 布 函 数 完全 已 知 设 
为 互 (z), 杞 (x),… ,P(x); 有 时 只 知道 其 形式 , 其 中 某 个 或 某 些 未 知 参 数 
未 知 ; 有 时 我 们 对 于 它们 全 然 不 知 . 前 面 二 种 场合 下 的 判别 分 析 称 为 参数 判别 
方法 , 后 面 一 种 场合 下 的 判别 分 析 称 为 非 参数 判别 方法 . 


通常 我 们 先 对 预先 得 到 的 来 自 这 k 个 总 体 的 若干 个 样品 ( 称 为 训练 样品 ) 进 
行 检验 和 归 类 , 来 决定 相应 的 判别 归 类 问题 是 否 有 意义 及 误 判 可 能 性 大 小 . 然 
后 再 对 给 定 的 一 个 或 儿 个 新 的 样品 , 进行 判别 归 类 , 即 决 定 它 ( 们 ) 自 哪个 总 体 . 
解决 这 个 问题 可 以 有 多 种 途径 , 下 面 我 们 分 别 讨论 几 种 常用 的 方法 , 如 距离 判 
别 、Fisher 判 别 等 . 
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10.2.1 ”距离 判别 











距离 判别 法 (或 称 直 观 判 别 法 ) 的 基本 思想 是 : 样品 和 哪个 总 体 距离 最 近 ,， 
就 判 它 属于 哪个 总 体 . 














两 个 总 体 的 距离 判别 



































设 有 两 个 总 体 ( 或 称 两 类 )G1,G2, 从 第 一 个 总 体 中 抽取 ni 个 样品 ,从 第 二 
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个 总 体 中 抽取 nz 个 样品 , 每 个 样品 观测 mm 个 指标 zi， … ,zm. 所 得 的 数据 集 称 
为 训练 样本 


今 取 一 个 样品 X, 实测 指标 值 X = (x1,… ,zm), 问 该 样品 应 该 判 为 哪 一 


类 ? 





2 
































首先 计算 样品 X 到 G1 和 G2 两 类 的 距离 , 分 别 记 为 D(X, G1) 和 D(X,G2), 按 
照 距 离 判 别 归 类 , 即 : 样品 离 哪个 总 体 距离 最 近 , 就 判 它 属于 哪个 总 体 ; 如 果 样 
品 到 两 个 总 体 距 离 相 等 , 则 暂时 不 归 类 . 判别 准则 可 以 写 为 : 





























XEe G1 如 果 D(X,， G1) < D(X, G2) 
Xe Gz, 如果 D(X,G2) < D(X,G1) (10-2.1) 
X 待 判 ,如 果 D(X,G1) = D(X,G，) 











距离 DD 的 定义 有 很 多 种 , 但 是 考虑 到 判别 分 析 中 常 涉及 多 个 变量 的 问题 , 且 变 
量 之 间 可 能 有 相关 性 , 故 多 用 马 氏 (Mahalanobis) 距 离 : 























D(X,G) = (X—1)D (Xn) (10-2.2) 




















其 中 j= (1 ,Lm) 为 G 的 均值 向 量 , 2 = (0ij)mwxm 为 G 的 协 差 阵 . 


在 实际 问题 中 , 通常 Gi(i=1, 2) 的 均值 向 量 y 和 协 差 阵 史 均 未 知 , 故 需要 | 
来 自 它们 的 训练 样品 XA),t = 1,2,… ,msi = 1,2 进 行 估计 . 它们 的 极 大 似 然 
























































估计 分 别 为 
A SR 
Ti t=1 
可 xD OY 
六 (XO — XOXO -TOY,i= 1,2 
mi 一 工会 ! 











特别 地 , 若 假 定 两 总 体 的 协 差 阵 相 等 , 则 它们 的 共同 的 协 差 阵 2 = 21 = 就 
用 它们 的 样本 合并 协 差 阵 8 进行 估计 : 


9 = #3[(n1 — 1 +(n2—1)52], n= n +n2. 
这 时 可 由 两 蕊 氏 距 离 之 差 得 到 线性 判别 函数 W(X) = a( 关 一 XX*), 其 中 





























a = (部 ee 十 天 一 人 + 
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相应 的 判别 规则 变 成 
Xe G1, 如 果 W(X)>0 


Xe Gz, 如 果 W(X)<0 (10-2.3) 
久 待 判 ,如果 W(X) = 0 


多 个 总 体 的 距离 判别 








类 似 与 两 个 总 体 的 情况 , 多 个 总 体 的 情况 , 按照 距离 最 近 的 原则 对 X 进 行 
判别 归 类 时 , 首先 计算 样品 到 各 类 的 马 氏 (Mahalanobis) 距 离 , 然后 进行 比较 ， 
把 待 判 样品 判 归 距 离 最 小 的 那个 总 体 . 计算 马 氏 (Mahalanobis) 距 离 时 , 类 似 地 
可 以 考虑 21 = 2 = … = 或者; 不仅 相等 的 两 种 情况 . 

这 种 根据 距离 远近 来 判别 的 方法 , 原理 简单 , 直观 易 懂 , 旦 是 后 面 要 介 
的 Fisher 判 别 的 基础 . 

























































































10.2.2 ”Fisher 判 别 法 




















Fisher 判 别 的 基本 思想 是 投影 . 将 组 m 维 数据 投影 到 某 个 方向 , 使 得 投影 
后 组 与 组 之 间 尽 可 能 地 分 开 . 而 衡量 组 与 组 之 间 是 否 分 开 的 方法 借助 于 一 元 方 
差分 析 的 思想 . 


设 从 p 维 总 体 Gttt = 1,2,… ,有 ) 中 分 别 抽取 ms 个 样品 XH，j = 
1,2,… ,nt 令 a = (a1,a2,… ,ap) 为 p 维 空间 中 的 任 一 问 量 , u(X) = aX 
表示 关 问 以 a 为 法 线 方向 的 投影 . 通过 这 样 的 投影 , 可 以 将 原来 的 数据 转化 
为 k 组 一 维 数据 : a'X 四 ，j = 1,2,… ,ne,t = 1,2,… ,K. 按 一 元 方差 分 析 的 思 
想 , 其 组 间 平 方 和 为 



















































































天 
Bo = Sn(a XY —¥)? 
t=1 





k 
和 mI RR 


te 


合并 的 组 内 平方 和 为 





Ns 


k i 
Eo= aol) SX -HRY -Xe = a Boa, 
t=1 j=1 
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其 中 又 和 叉 分 别 为 G 的 样 本 均值 和 总 样本 均值 . 若 k 类 的 均值 有 显著 差异 ， 
则 比值 A(a) = B24， 应 该 充分 大 . 利用 方差 分 析 的 思想 , 问题 化 为 求 投影 
方向 a， 使 得 A(aj 达 到 极 大 值 但 A(a) 达 到 极 大 值 的 a 并 不 唯一 . 等 价 地 , 我 
们 可 以 对 a 加 一 约束 条 件 , 即 选取 a 使 得 a Ba = 1， 问题 化 为 求 a, 使 A(a) = 
a'Ba 在 a' Ba = 1 条 件 下 达 极 大 . 
利用 Lagrange 乘 数 法 可 以 容易 地 导出 线性 判别 函数 w(X) = wX, 其 中 a 为 
特征 方程 |B-1B 一 和 T| = 0 的 最 大 特征 根 所 对 应 的 满足 a Ba = 1 的 特征 向 量 . 
若 仅 用 一 个 线性 判别 函数 不 能 很 好 地 区 分 各 个 总 体 , 则 可 用 第 二 大 特征 
根 、 第 三 大 特征 根 .… 对 应 的 特征 向 量 构造 线性 判别 函数 进行 判别 , 线性 判别 函 
数 的 个 数 不 超 过 k-1 个 . 判别 的 效率 用 这 些 特征 根来 度量 . 






























































































































































10.2.3”R 通 用 程序 





首先 我 们 要 用 


E 
心 





>library (MASS) 


























加 载 MASS 宏 包 , 再 用 函数 1dqa( ) 就 可 完成 Fisher 判 别 分 析 , 其 基本 调用 格式 
如 下 : 


lda( ) 的 调用 格式 
| lda(formula, data, ... ， subset, na.action) ] 


说 明 : formula 用 法 为 groups~ xl 十 x2 十 .……，group 表 明 总 体 来 源 ， 
ZX1, 72,… 表示 分 类 指标 ; subset 指 明 训练 样本 . 具体 说 明 见 RR 帮助 . 

例 10.2.1 ”Fisher 于 1936 年 发 表 的 芒 尾 花 (Iris) 数 据 被 广泛 地 作为 判别 
分 析 的 例子 . 数据 是 对 3 品种 (species) 营 尾 花 : 刚毛 评 尾 花 (setosa)、 变 色 葬 
尾 花 (versicolor)、 弗 吉 尼 亚 并 尾 花 (virginica) 各 抽取 一 个 容量 为 50 的 样本 ， 
测量 其 花 划 长 (Sepal .Lenth)、 人 花 委 宽 (Sepal.Width)、 花 办 长 (Petal.Lenth)、 
花瓣 宽 (Petal.Width), 单位 为 mm. 试 调用 了 内置 档案 中 的 iris 数 据 文件 进行 
判别 分 析 . 


解 及 程序 如 下 : 




















































































































> data(iris) 


> attach(iris) 


10.2 判别 分 析 . 329 . 





> names (iris) 

> library (MASS) 

> iris.lda <- lda(Species ~ Sepal.Length + Sepal.Width 
+ Petal.Length + Petal .Width) 


> iris.lda 

> iris.pred=predict(iris.lda) $ class 
> table(iris.pred, Species) 

> detach(iris) 








predict( ) 是 及 内 置 函 数 , 可 以 将 lda( ) 的 输出 应 用 于 原本 iris 的 数据 进行 预 
测 , 从 而 进行 对 比 . 


及 程序 结果 : 








Call: lda(Species ~ Sepal.Length + Sepal.Width 
+ Petal.Length +Petal .Width) 


Prior probabilities of groups: 
setosa versicolor virginica 
0.3333333 0.3333333 0.3333333 


Group means: 


Sepal.Length Sepal.Width Petal.Length Petal.Width 


setosa 5.006 3.428 1.462 0.246 
versicolor 5.936 2.770 4.260 1.326 
virginica 6.588 2.974 5.552 2.026 


Coefficients of linear discriminants: 
LD1 LD2 
Sepal.Length 0.8293776 0.02410215 
Sepal .Width 1.5344731 2.16452123 
Petal.Length -2.2012117 -0.93192121 
Petal.Width -2.8104603 2.83918785 


Proportion of trace: 
LD1 LD2 
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0.9912 0.0088 


Species 

iris.pred setosa versicolor virginica 

setosa 50 0 0 

versicolor 0 48 1 

virginica 0 2 49 
结果 说 明 : 











1) Group means: 包含 了 每 组 的 平均 向 量 

2) Coefficients of linear discriminants: 线性 判别 系数 

3) Proportion of trace: 表明 了 第 判别 式 对 区 分 各 组 的 页 献 大 小 

4) Species: 表明 将 原始 数据 代入 线性 判别 函数 后 的 判别 结果 , setosa 组 没 


有 错 判 , versicolor 有 两 个 错 判 , virginica 只 有 一 个 错 判 


























国 

例 10.2.2 “” 盐 泉 含 钾 性 判别 ( 见 表 10.3, 并 生成 数据 文件 disc.txt): 某 地 

区 经 勘探 证 明 A 盆 地 是 一 个 钾 盐 矿区 , B 贫 地 是 一 个 钠 盐 矿 区 , 其 他 盐 贫 地 是 

和 否 含 钾 盐 有 待 作出 判断 . 今 从 A, B 两 盆地 各 抽取 5 个 盐 泉 样品 ; 从 其 他 盆地 抽 

得 8 个 盐 泉 样品 , 18 个 盐 泉 的 四 个 指标 数值 见 下 表 . 试 对 后 8 个 待 判 盐 泉 进行 含 
钾 性 判别 . 


解 及 程序 如 下 : 


































































































> W<- read.table("D:/Rdata/disc.txt") 

> names(w)=c("group", "xi", "x2", "x3", "x4") 

> library (MASS) 

> z <- lda(group “x1+x2+x3+x4, data=w, prior=c(1, 1)/2) 

> newdata<-rbind( 
c(8.85, 3.38, 5.17, 26.10), c(28.60，2.40，1.20，127.0) ， 
c(20.70, 6.70, 7.60, 30.20), c(7.90, 2.40,4.30，33.20)， 
c(3.19, 3.20, 1.43, 9.90), c(12.40，5.10，4.43，24.60) ， 
c(16.80, 3.40, 2.31, 31.30), c(i15.00, 2.70, 5.02, 64.00)) 

dimnames (newdata) <-list (NULL, c("x1", "x2", "x3", "x4")) 


newdata<-data.frame (newdata) 


Vv 


Vv 
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表 10.3” 盐 果 含 钙 数 据 
在 果 类 别 | 序号 | Xi XX X; X4 | 类 别 号 

第 一 类 : 1 13.85 | 2.79 | 7.80 | 49.60 A 
含 钱 盐 果 2 22.31 | 4.67 | 12.31 | 47.80 A 
(A 贫 地 ) 3 28.82 | 4.63 | 16.18 | 62.15 A 
4 15.29 | 3.54 | 7.50 | 43.20 A 
5 28.79 | 4.90 | 16.12 | 58.10 A 
第 二 类 : 6 2.18 | 1.06 | 1.22 | 20.60 B 
不 合 钾 7 3.85 | 0.80 | 4.06 | 47.10 B 
盐 果 8 11.40 | 0.00 | 3.50 0.00 B 
(也 盆地) 9 3.66 | 2.42 | 2.14 | 15.10 B 
10 12.10 | 0.00 | 5.68 | 0.00 B 

下 8.85 | 3.38 | 5.17 | 26.10 

2 28.60 | 2.40 | 1.20 | 127.0 

待 3 20.70 | 6.70 | 7.60 | 30.20 

判 4 7.90 | 2.40 | 4.30 | 33.20 

盐 5 3.19 | 3.20 | 1.43 | 9.90 

果 6 12.40 | 5.10 | 4.43 | 24.60 

7 16.80 | 3.40 | 2.31 | 31.30 

8 15.00 | 2.70 | 5.02 | 64.00 























> predict(z, newdata=newdata) 


及 程序 结果 : 





$class [1] BAABBAAACLevels: AB 


$posterior 
A B 
1 1.639701e-03 9.983603e-01 
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2 1.000000e+00 1.932625e-83 
3 1.000000e+00 1.269619e-20 
4 8.302424e-02 9.169758e-01 
5 1.190922e-06 9.999988e-01 
6 1.000000e+00 1.129611e-10 
7 1.000000e+00 1.161894e-26 
8 1.000000e+00 7.135903e-22 
$x 
LD1 

1 1.0536512 

2 -31.2985593 

3 -7.5286829 

4 0.3947245 

5 2.2416596 

6 -3.7639282 

7 -9.8136273 

8 -8.0017623 

结果 说 明 : 
1) 由 $class 可 以 看 出 8 个 待 判 样品 , 待 判 样品 1, 4, 5 属于 含 钙 盐 果 (A 盆 地 )， 
其 余 属 于 不 含 钾 盐 录 (B 盆 地 ); 














2) $z 给 出 了 线性 判别 函数 的 数值 . 


810.3” 聚 类 分 析 

















聚 类 分 析 (cluster analysis) 是 研究 “ 物 以 类 聚 ”的 一 种 方法 , 在 国内 曾 有 人 
称 它 为 群 分 析 、 点 群 分 析 、 簇 群 分 析 等 ， 人 类 认识 世界 往往 首先 将 被 认识 的 对 
象 进行 分 类 , 因此 分 类 学 便 成 了 人 类 认识 世界 的 基础 科学 . 在 古老 的 分 类 学 中 ， 
人 们 主要 靠 经 验 和 专业 知识 实现 分 类 . 随 着 人 类 对 自然 的 认识 不 断 加 深 , 分 类 
越 来 越 细 , 要 求 越 来 越 高 , 以 致 有 时 光 和 凭借 经 验 和 专业 知识 还 不 能 进行 确切 的 
分 类 , 于 是 数学 这 个 有 用 的 工具 逐渐 被 引进 到 分 类 学 中 , 形成 了 数值 分 类 学 . 后 
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分 类 学 : 





来 随 着 多 元 分 析 的 引进 ,从 数值 





























BA 








和 多 元 分 析 的 其 他 方法 相 比 ， 



































三 大 方法 . 











于 它 的 应 用 取得 和 








值得 一 提 的 是 聚 

















别 . 聚 类 分 析 一 般 是 寻求 客观 





晓 , 而 判别 分 析 贝 
样本 的 基 三 








析 和 判别 分 析 都 是 研 














es 





1 上 , 对 当前 的 新 样品 月 











逐渐 地 分 离 H 





究 分 类 











问题 , 但 两 者 有 本 质 的 区 
分 类 的 方法 , 事先 对 总 体 到 底 有 几 种 类 型 从 无 知 
总体 类 型 划分 已 知 , 在 各 总 体 分 布 或 来 自 各 个 总 体 训练 
日 统计 分 析 的 方法 判定 它们 






































上 了 聚 类 分 析 这 个 分 文 . 
分 析 的 方法 是 比较 粗糙 的 , 理论 尚 不 完善 , 但 
回归 分 析 、 判 别 分 析 一 起 被 称 为 多 元 分 析 的 





系统 聚 类 法 是 将 mn 个 样品 分 成 若干 类 的 方法 , 其 基本 思想 是 : 先 将 mn 个 样品 





各 自 看 成 一 类 , 然后 规 











类 与 类 之 间 的 距离 (类 之 间 的 距离 有 多 种 定义 方法 








选择 距离 最 小 的 一 对 合 3 














近 的 两 类 合并 , 这 相 
对 于 距离 常用 的 有 以 下 几 种 : 
(1) 绝对 值 距离 (R 语 言 9 


























(3) 明 考 斯 基 距 离 (Minkowski)， 


(4) 切 贝 雪夫 距离 (Ri 语言 中 























E 离 (Euclidean), 用 














— 


类 , 计算 新 类 与 其 他 类 的 距离 , 再 将 距离 最 


每 次 减少 一 类 , 直至 所 有 的 样品 都 成 为 一 类 为 止 . 





PF 用 Manhattan 表 示 ), 用 公式 表示 为 


p 
da(1)= >》 |ein = zy 
v= 





式 表 示 为 


p 


dij(2) = es — Lk)” 


k=1 

















dij(q) = es 去 oo 
用 2 


公式 对 

















jmaximum 表 示 )， 


公式 表示 为 


dis(%0) = ma lwin — Tin| 





, (p> 0) 





(10-3.1) 


(10-3.2) 


(10-3.3) 


(10-3.4) 
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(5) 马 氏 距离 , 用 公式 表示 为 





dij(M) = (Xa — XO)) 5 (XG — Xoy)) (10-3.5) 


式 中 3 是 样本 协 方 差 矩 阵 
(6) 兰 氏 距离 (及 语言 中 用 canberra 表 示 ), 用 公式 表示 为 






































Vik 一 Vik 
di(L) = 1 和 ee , (xij > 0) (10-3.6) 
共生 和 





在 及 软件 中 , qist( ) 函数 给 出 了 各 种 距离 的 计算 结果 , 其 调用 格式 为 : 








dist( ) 的 调用 格式 
dist(x, method = "euclidean", diag = FALSE, upper = FALSE, p = 2) 














说 明 : method 表 示 计 算 距 离 的 方法 默认 值 为 euclidean( 欧 氏 ) 盟 























diag 是 逻辑 变量 : 当 diag=TRUE 时 , 输出 距离 矩阵 对 角 线 上 的 距离 . upper 也 


次 洁 下 

















逻辑 变量 : 当 upper=TRUE 时 , 输 
阵 ) 


类 与 类 之 间 的 距离 有 许多 定义 方法 , 主要 有 下 面 七 种 ; 


i 出 距离 矩阵 上 三 角 部 分 (默认 仅 输出 下 三 外 




















1) 类 平均 法 (average Linkage) 





2 


由 
上 





重心 法 (centroid method) 
3) 中 间距 离 法 (median method) 
5) 最 短 距 离 法 (single method) 


6) 离 差 平方 和 法 (ward method) 





(1) 
(2) 
(3) 
(4) 最 长 距离 法 (complete method) 
(5) 
(6) 离 
(7) Mcquitty 相 似 法 (Mcquitty method) 




















各 类 方法 计算 方式 不 同 , 有 学 者 推荐 采用 离 差 平方 和 法 或 最 短 距离 法 . 








10.3.2”R 通 用 程序 




















利用 及 语言 的 hclust( ) 函 数 就 可 完成 系统 肾 类 分 析 , 其 基本 调用 格式 如 
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下 ; 


hclust( ) 的 调用 格式 
| hclust(d, method = "complete", members=NULL) | 


说 明 : d 是 由 “dist” 构 成 的 距离 结构 , method 是 系统 聚 类 的 方法 (默认 地 是 
最 长 距离 法 ) 具 体 说 明 见 及 帮助 . 

例 10.3.1 设 有 5 个 产品 , 每 个 产品 测 得 一 项 质量 指标 x, 其 值 如 下 : 1, 2， 
4.5, 6, 8, 试用 最 短 距离 法 、 最 长 距离 法 、 中 间距 离 法 、 离 差 平 方 和 法 分 别 对 5 个 
产品 按 质量 指标 进行 分 类 


解 RR 程序 如 下 : 










































































x<-c(1, 2, 4.5, 6, 8) 

dim(x)<-c(5, 1) 

d<-dist (x) 

hci<-hclust(d, "single") 
hc2<-hclust(d, "complete") 
hc3<-hclust (d, "median") 
hc4<-hclust (d, "ward") 

opar<-par (mfrow=c(2, 2)) 

plot(hci, hang=-1);plot (hc2, hang=-1) 
plot (hc3, hang=-1);plot(hc4, hang=-1) 
par (opar) 


V V V V V V V VvV VvV Vv Vv 








RR 程序 结果 见 图 10.1. 可 见 , 四 种 分 类 方法 结果 一 致 , 都 将 第 1, 2 个 分 在 一 


类 ， 其 余 在 第 二 类 























例 10.3.2 ”对 例 10.2.1 中 的 萝 尾 花 (Iris) 数 据 进 行 聚 类 分 析 . 


解 判别 分 析 中 , 我 们 已 知音 尾 花 的 品种 并 应 用 了 这 些 数据 . 现在 假设 我 
们 只 知道 数据 内 有 三 种 品种 的 葛 尾 花 而 不 知道 每 条 花 的 真正 分 类 , 只 能 凭借 花 
葡 及 花瓣 的 长 度 和 宽度 去 分 成 三 类 , 这 就 是 从 类 分 析 . 


及 程序 如 下 : 
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V V VvV VvV VvV Vv YYV 
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Cluster Dendrogram Cluster Dendrogram 
eo ~ 
[= © 卫 
qi | 
mJ 
主 一 皇 了] 
号 2 号 o 
工 过 下 
pa 
一 CN wD CD 寸 T= CN LD CD 寸 
d 
hclust (*, "single") hclust (*, "complete") 
Cluster Dendrogram Cluster Dendrogram 
2 
寸 oo 了 
© 
CD < 了 
| 主 
SS a 本 + 
卫 卫 
| si 
| 全 mm 
一 CN wD CD + 和 CN LD [ae] 寸 
d d 
hclust (*, "median") hclust (*, "ward") 
图 10.1 上 肾 类 图 
data(iris); attach(iris) 
iris.hc<-hclust(dist(iris[,1:4])) 
# plot(iris.hci, hang = -1) 
plclust(iris.hci1,labels = FALSE, hang=-1) 
re<-rect.hclust(iris.hci1 ,k=3) 
iris.id <- cutree(iris.hc1,3) 
table(iris.id,Species) 




















二 







































































数 cuttree( ) 将 iris.hc 输 出 编制 成 若干 组 . 





蛙 序 中 我 们 调用 RR 内 置 数 据 iris, 用 0 ) 进 行 聚 类 分 析 , 输出 
结果 保存 在 iris.hc 中 , 用 函数 rect.hclust( ) 按 定 的 类 的 个 数 (或 立信 ) 进 
行 聚 类 , 并 用 函数 plclust( ) 代 替 plot( 0 图 (两 者 使 用 方法 
基本 相同 ), 各 类 用 边框 界定 , 选项 labels=FALSE 只 是 为 了 省 去 数据 的 标签 





. 略 
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R 程 序 的 结果 见 图 10.2 和 相应 的 输出 . 





oO 二 = 
十 二 二 
二 
. 避 ) 
vo 
工 
CN | 
【a | | 
Species 
iris.id 
1 
2 
3 





















































dist(iris[, 1:4]) 


hclust (*, "complete") 


图 10.2“” 聚 类 图 


setosa versicolor virginica 


























Fool 
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说 明 : 图 10.2 为 典型 的 聚 类 树枝 型 分 类 图 (Cluster Dendrogram), 它 是 
将 两 相近 (距离 最 短 ) 的 数据 向 量 连接 在 一 起 , 然后 进一步 组 合 , 直至 所 有 
数据 都 连接 在 一 起 ; 函数 cuttree( ) 将 数据 iris 分 类 结果 iris.hc 编 为 三 组 ， 
分 别 以 1，2, 3 表示 , 保存 在 iris.id 中 .将 iris.id 与 iris 中 Species 作 比较 
发 现 , 1 应 该 是 setosa 类 , 2 应 该 是 virginica 类 (因为 virginica 的 个 数 明显 
于 versicolor), 3 是 versicolor. 从 聚 类 的 结果 来 看 , 明显 与 原始 数据 有 着 比 
较 大 的 差异 . 图 






















































































$10.4 ”典型 相关 分 析 


10.4.1 基本 思想 





在 一 元 统计 分 析 中 , 研究 两 个 随机 变量 之 间 的 线性 相关 关系 , 可 用 相关 系 
数 ( 称 为 简单 相关 系数 ); 研究 一 个 随机 变量 与 多 个 随机 变量 之 间 的 线性 相关 关 
系 , 可 用 复 相关 系数 ( 称 为 全 相关 系数 )，1936 年 Hotelling 首 先 将 它 推广 到 研究 
多 个 随机 变量 与 多 个 随机 变量 之 间 的 相关 关系 的 讨论 中 , 提出 了 典型 相关 分 
析 . 
















































































实际 问题 中 , 两 组 变量 之 间 具 有 相关 关系 的 问题 很 多 , 例如 几 种 主要 产品 
如 猪肉 、 牛 肉 、 鸡 蛋 的 价格 (作为 第 一 组 变量 ) 和 相应 这 些 产品 的 销售 量 (作为 
第 二 组 变量 ) 有 相关 关系 ; 投资 性 变量 (如 劳动 者 人 数 、 货 物 周转 量 、 生 产 建设 
投资 等 ) 与 国民 收入 变量 (如 工农 业 国民 收入 、 运 输 业 国民 收入 、 建 筑 业 国民 收 
入 等 ) 具 有 相关 关系 ; 患 某 种 疾病 的 病人 的 各 种 症状 程度 (第 一 组 变量 ) 和 用 物理 
化 学 方法 检验 的 结果 (第 二 组 变量 ) 上 共有 相关 关系 ; 运动 员 的 体力 测试 指标 (如 
反复 横向 跳 、 纵 跳 、 背 力 、 握 力 等 ) 与 运动 能 力 测试 指标 (如 耐力 跑 、 跳 远 、 投 球 
等 ) 之 间 上 共有 相关 关系 等 等 . 















































































































































典型 相关 分 析 就 是 研究 两 组 变量 之 间 相关 关系 的 一 种 多 元 统计 方法 , 设 两 
组 变量 用 Xi, X2,… , Xp, 及 Xpu+1, Xp+2，… ,Xi 表示 , 要 研究 两 组 变量 
的 相关 关系 , 一 种 方法 是 分 别 研究 X; 与 Xj (i = 1 ,pi 了 =pi 十 1D.… ,pi 十 
pz) 之 间 的 相关 关系 , 然后 列 出 相关 系数 表 进行 分 析 , 当 两 组 变量 较 多 时 , 这 
样 做 法 不 仅 烦琐 , 也 不 易 抓 住 问题 的 实际 ; 另 一 种 方法 采用 类 似 主 成 分 分 
析 的 做 法 , 在 每 一 组 变量 中 都 选择 若干 个 有 代表 性 的 综合 指标 (变量 的 线性 
组 合 ), 通过 研究 两 组 的 综合 指标 之 间 的 关系 来 反映 两 组 变量 之 间 的 相关 关 
系 . 比如 猪肉 价格 和 牛肉 价格 用 Xi, Xs 表示 , 它们 的 销售 量 用 Xs, X4 表 示 ， 






































































































































10.4 典型 相关 分 析 
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究 它们 之 间 的 相关 关系 , 从 经 济 学 观点 就 是 希望 构造 一 个 Xi, Xa2 的 线性 函 
数 y 二 Q11A1 中 Qa12X» 称 为 价格 指数 及 XX, Xs 的 线性 函数 y = a21X3 十 Q22X14 
称 为 销售 指数 , 要 求 它 们 之 间 具 有 最 大 相关 性 , 这 就 是 一 个 典型 相关 分 析 问 题 . 
























































典型 相关 分 析 基 本 思想 :首先 在 每 组 变量 中 找 出 变量 的 线性 组 合 , 使 其 具 
































有 最 大 相关 性 , 然后 再 在 每 组 变量 中 找 出 第 二 对 线性 组 合 , 使 其 分 别 与 第 一 对 
线性 组 合 不 相关 , 而 第 二 对 本 身 具 有 最 大 的 相关 性 , 如 此 继续 下 去 , 直到 两 组 















































变量 之 间 的 相关 性 被 提取 完毕 为 止 . 有 了 这 样 线性 组 合 的 最 大 相关 , 则 讨论 两 





























组 变量 之 间 的 相关 , 就 转化 为 上 只 研究 这 些 线性 组 合 的 最 大 相关 , 从 而 减少 研究 








变量 的 个 数 . 











够 广泛 应 用 于 变量 群 之 间 的 相关 分 析 研 究 
设 有 两 组 随机 变量 XD = (Xi, Xo,… ,Xp),，X(2 


5 ;pi ps), 记 p 二 pi1 十 22 不 妨 设 Pi < D2 ， 假定 六 一 




















典型 相关 分 析 是 对 两 组 变量 (指标 ) 的 每 一 组 作为 整体 考虑 的 . 因此 , 它 能 


3 (Xpi+1, 及 pi+2， 


(1) 
~ 让 
和 (2) 


阵 忆 > 0, 均值 向 量 / = 0( 否 则 只 要 以 X 一 代替 X 即 可 ), 相应 的 将 己 前 分 为 




















>» » 
一 11 12 , 
221 >22 






















































































前 面 已 介绍 作 两 组 变量 的 线性 组 合 , 即 








U=IXi+lX + + ly Xy = LX 


= M1Xpit1 上 m2 Xpi42 eel RD. 三 





其 中 Zi1 是 第 一 组 变量 的 协 方差 阵 , 1 是 第 一 组 变量 与 第 二 组 变量 的 协 方差 
阵 , 22 是 第 二 组 变量 的 协 方差 阵 . 要 研究 X0), Xe) 两 组 变量 之 间 的 相关 关系 ， 








和 


710/ 和 (2)， 


其 中 = (2127 = (5 1o) 为 任意 非 零 常 数 向 量 , 易 见 : 


Var(U) = Var(1 XV) = L311), 


Var(V) = Var(m XGO) = mm Dam 


Cov(U,V) = 1 cov( Xi Xs)m = {Yi12m, 


[12m 


Pov TT Em 
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我 们 寻求 1 与 m 使 得 puv 达到 最 大 , 但 由 于 随机 变量 乘 以 常数 时 不 改变 他 们 的 
相关 系数 , 为 防止 不 必要 的 结果 重复 出 现 , 最 好 的 限制 是 令 Var(U) = /2311 = 
1, Var(V) = m22m = 1. 于 是 我 们 的 问题 就 成 为 在 约束 条 件 : Var(U) = 1， 
Var(V) = 1 下 , 寻求 ! 与 mm 使 得 puv 达到 最 大 . 


所 以 典型 相关 分 析 研 究 的 是 如 何 选 取 典 型 变量 的 最 优 组 合 . 选取 的 
原则 是 : 在 所 有 的 线性 组 合 U,V 中 , 选取 典型 相关 系数 最 大 的 U,V， 即 选 
取 1', mm! 使 得 可 = LVIXD,Vi = mW'X%) 之 间 的 相关 系数 达到 最 大 (在 所 
有 U,V 中 ), 然后 选取 173)',m3)' 使 得 0 = 73)YXD,W = mYX) 之 间 的 相关 
系数 在 与 ,Vi 不 相关 的 组 合 U,V 中 达到 最 大 (第 二 高 的 相关 ). 如 此 继续 下 去 ， 
直到 选取 出 所 有 分 别 与 本 ,U2,… ,Up_1 和 ,V2,…… , Vi-_1 都 不 相关 的 线性 组 
合 , WV 为 止 , 此 时 k 为 两 组 原始 变量 中 个 数 较 少 的 那个 数 . 典型 变量 和 Vi， 
U2 和 Wo,…, Ui 和 Wi 是 根据 它们 的 相关 系数 由 大 到 小 逐 对 提取 的 , 直到 两 组 
变量 之 间 的 相关 性 被 分 解 完毕 为 止 . 





















































































































































10.4.2 ”及 通用 程序 



































利用 及 语言 的 cancor( ) 函 数 就 可 完成 典型 相关 分 析 . 其 基本 调用 格式 如 
下 : 


cancor( ) 的 调用 格式 


cancor(x, y， xcenter = TRUE， ycenter = TRUE) 





说 明 : x，y 是 两 组 变量 的 数据 矩阵 , xcenter 和 ycenter 是 逻辑 变量 , TRUE 表示 
将 数据 中 心 化 (默认 选项 ), 具体 说 明 见 RR 帮助 . 

例 10.4.1 研究 投资 性 变量 与 反映 国民 经 济 变 量 之 间 的 相关 关系 . 
投资 性 变量 选 6 个 , 分 别 为 Xi1, Xz,..., Xe6, 反映 国民 经 济 的 变量 选 5 个 , 分 别 
为 玉 , 瑟瑟 . 抽取 从 1975 一 2002 年 共计 28 年 的 统计 数据 , 如 表 10.4, 采用 1 
型 相关 分 析 的 方法 来 分 析 投 资 性 变量 与 反映 国民 经 济 的 变量 的 相关 性 . 


解 及 程序 如 下 : 

























































































> invest=Tread.table("D:/Rdata/invest .txt") 
> names (invest)=c("x1", Hx xB yd xb", x6", 
"yl1" "y2" "y3" "y4" VE) 


> ca<-cancor(invest[, 1:6], invest[, 7:11]) 





及 程序 结果 : 
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表 10.4 1975 一 2002 年 的 投资 性 变量 与 反映 国民 经 济 的 变量 
序列 | Xi X2 又 3 Xa Xs Xe Yi YY Ys Y Ys 
1 173.28 93.62 60.10 86.72 38.97 27.51 75.3 117.4 74.6 61.8 4508 
2 172.09 92.83 60.38 87.39 38.62 27.82 76.7 120.1 77.1 66.2 4469 
3 171.46 92.73 59.74 85.59 38.83 27.46 75.8 121.8 75.2 65.4 4398 
4 170.08 92.25 58.04 85.92 38.33 27.29 76.1 115.1 73.8 61.3 4068 
5 170.61 92.36 59.67 87.46 38.38 27.14 72.9 119.4 77.5 67.1 4339 
6 171.69 92.85 59.44 87.45 38.19 27.10 72.7 116.2 74.6 59.3 4393 
7 171.46 92.93 58.70 87.06 38.58 27.36 76.5 117.9 75.0 68.3 4389 
8 171.60 93.28 59.75 88.03 38.68 27.22 75.2 115.1 74.1 63.2 4306 
9 171.60 92.26 60.50 87.63 38.79 6.63 74.7 117.4 78.3 68.3 4395 
10 171.16 92.62 58.72 87.11 38.19 27.18 73.2 113.2 72.5 51.0 4462 
11 170.04 92.17 56.95 88.08 38.24 27.65 77.8 116.9 76.9 65.6 4181 
12 170.27 91.94 56.00 84.52 37.16 26.81 76.4 113.6 74.3 65.6 4232 
13 170.61 92.50 57.34 85.61 38.52 27.36 76.4 116.7 74.3 61.2 4305 
14 171.39 92.44 58.92 85.37 38.83 26.47 74.9 113.1 74.0 61.2 4276 
15 171.83 92.79 56.85 85.35 38.58 27.03 78.7 112.4 72.9 61.4 4067 
16 171.36 92.53 58.39 87.09 38.23 27.04 73.9 118.4 73.0 62.3 4421 
17 171.24 92.61 57.69 83.98 39.04 27.07 75.7 116.3 74.2 51.8 4284 
18 170.49 92.03 57.56 87.18 38.54 27.57 72.5 114.8 71.0 55.1 4289 
19 169.43 91.67 57.22 83.87 38.41 26.60 76.7 117.5 72.7 51.6 4097 
20 168.57 91.40 55.96 83.02 38.74 26.97 77.0 117.9 71.6 52.4 4063 
21 170.43 92.38 57.87 84.87 38.78 27.37 76.0 116.8 72.3 58.0 4334 
22 169.88 91.89 56.87 86.34 38.37 27.19 74.2 115.4 73.1 60.4 4301 
23 167.94 90.91 55.97 86.77 38.17 27.16 76.2 110.9 68.5 56.8 4141 
24 168.82 91.30 56.07 85.87 37.61 26.67 77.2 113.8 71.0 57.5 3905 
25 168.02 91.26 55.28 85.63 39.66 28.07 74.5 117.2 74.0 63.8 3943 
26 167.87 90.96 55.79 84.92 38.20 26.53 74.3 112.3 69.3 50.2 4195 
27 168.15 91.50 54.56 84.81 38.44 27.38 77.5 117.4 75.3 63.6 4039 
28 168.99 91.52 55.11 86.23 38.30 27.14 77.7 113.3 72.1 52.8 4238 








$cor 
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[1] 0.8743062 0.7373122 0.5104993 0.3541742 0.1510162 


$xcoef 

[Ls1] 
xl 0. 
文 2 0s 
X3 0.05901271 0 


X4 0.02720459 -0. 
05046629 -0. 
09818550 0. 


广 5 二 05 
x6 0. 


$ycoef 

[,1] 
yl -0.0097969228 
y2 -0.0064201995 
y3 0.0179056849 
y4 0.0101074931 
y5 0.0009083347 


$xcenter 


07907994 -0. 
06231142 -0. 


[,2] 
148819922 
005330072 
.181098314 -0 


408743145 0 


[,2] 
-0.0157649468 
0.0954303161 
-0.0279923087 
-0.0082248457 
-0.0003598887 


x1 XxX2 X3 


$ycenter 
yl 


75.59643 116.0 


结果 说 明 : 


[,3] 


0.10698911 -0. 
0.16195009 0. 
.08095237 0. 
142360745 -0. 
026272162 -0. 


11291982 -0. 
10552122 0. 


.07539201 -0. 


[,3] 
0.1263997157 
0.0052805529 
0.0194826255 

-0.0202537565 
0.0007780556 


x4 


y2 y3 y4 
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1) $cor 给 出 了 !} 






































73.68571 


60.11429 





[,4] 
023654480 
002344311 
045803287 
015211819 
250540745 
489439843 


[;4] 


X5 X6 
170.37000 92.19750 57.69429 86.06679 38.47786 27.17107 


y5 
4251.35714 


0.13247040 
-0.47379144 
0.12588000 
-0.09859752 
-0.43012143 
0.25175511 


[,6] 
0.510516673 
-0.965367730 
-0.078796849 
0.003270612 
0.205369791 
0.209683441 


[,5] 


-4.494590e-02 0.0042832480 
-1.885232e-02 0.0249264752 
9.233173e-02 -0.1181715021 
-4.602875e-02 0.0097856402 
-8.745514e-06 0.0008253158 


型 相关 系数 ; $xcoef 是 对 应 于 数据 X 的 系数 , 即 为 关于 数 


据 X 的 典型 载 集 ; $ycoef 为 天 于 数据 Y 的 典型 载 集 ; $xcenter 与 $ycenter 是 








数据 X 与 Y 的 ' 








心 , 即 样本 均值 ; 




















2) 对 于 该 问题 , 第 一 对 典型 变量 的 表达 式 为 


L = 
WV = 


第 一 对 典型 变量 的 相关 系数 为 0.8743062. 


























可 以 进行 


型 相关 系数 的 显著 ' 





性 检验 , 经 检验 也 只 有 第 一 组 典型 





0.079X1 一 0.062Xs。 + 0.059X3 十 0.027X4 一 0.050X5 十 0.098X6 
一 0.010 六 — 0.006Y, + 0.0179Ys 十 0.010Y 十 0.001Y5 





六 





10.5 对 应 分 析 
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810.5 ”对 应 分 析 





对 应 分 析 (Correspondence Analysis) 又 称 为 相应 分 析 , 是 1970 年 由 法 国 统 


计 学 家 J.P.Beozecri 提 出 来 的 . 对 应 分 析 是 
成 为 多 元 统计 分 析 ! 
的 重要 方法 , 它 是 在 R 型 和 Q 弄 





因子 分 析 的 进一步 推广 , 该 方法 已 












































同时 对 样品 和 变量 进行 分 析 ， 从 而 看 
因子 分 析 基 础 上 发 展 起 来 的 一 种 多 元 统计 方法 . 














而 且 我 们 研究 样本 之 














10.5.1 基本 思想 


由 于 R 型 因子 分 析 和 QQ 型 因 














究 多 变量 内 部 关系 




















间或 指标 之 间 的 关系 , 归根 结 底 是 为 了 研究 样本 与 指标 2 
间 的 关系 , 而 因子 分 析 没 有 办 法 做 到 这 一 点 , 对 应 分 
出 现 的 统计 分 析 方 法 . 








ff 则 是 为 解决 这 个 问题 而 











子 分 析 都 是 反应 一 个 整体 的 不 同 侧面 , 因而 它 








们 之 间 一 定 存在 着 内 在 的 联系 . 对 应 分 析 就 是 通过 对 应 变换 后 的 过 渡 和 矩阵 Z 将 
两 者 有 机 地 结合 起 来 . 








假设 有 n 个 相 



























































究 指标 或 样本 之 间 的 关系 
阵 刀 ,xn 进行 的 , 实际 上 用 3 
| 矩阵 4Apxp 的 特征 根 和 特征 向 量 直 接 得 
不 必 计 算 相似 矩阵 Bi,xn, 则 就 解决 了 当 样 本 数 很 大 时 























困难 . 


对 应 分 析 就 是 利用 降 维 的 思想 , 通过 
也 说 ,首先 给 出 变量 点 的 














EF 本 有 p 个 指标 , 原始 数据 入 
j 通 过 研究 它们 的 协 方差 矩阵 4x* 或 相似 和 矩 
民 和 特征 向 量 , 因此 , 如 能 
8 矩阵 Boxn 的 特征 根 和 特征 向 量 ,而 
改 Q 型 因子 分 析 计 算 上 的 






















































































结合 起 来 , 具体 
























































j Xuxp 来 表示 . 研 




















等 上 述 二 者 有 机 地 








协 差 阵 4 = 2Z'2 和 样品 点 的 协 差 
阵 BB = 2Z2Z' . 由 于 4 = 2Z'2Z 和 B = 2Z2Z' 有 相同 的 非 零 特征 根 记 为 Xi > 和 2 > 











Xi0s mm smin (n,p). 如 果 A 的 特 包 
征 根 X 对 应 的 特征 向 量 就 是 ZU; = Vi, 根据 这 个 结论 (证 明 省 略 ) 就 可 以 很 方 
便 的 借助 R 型 因子 分 析 而 得 到 Q 型 因 











子 分 析 的 结果 . 因 


























征 向 量 后 就 很 容易 地 写 出 变量 协 差 阵 对 应 的 








正 向 量 为 0, 则 B 的 特 





























此 求 出 4 的 特征 根 和 特 
因子 载荷 阵 , 记 为 , 则 
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FF = 


UI1VAL U12V A 和 
U21V A U22 VAL 0 


Up1VA1 Up2V A 2 


这 样 一 来 样品 点 协 差 阵 B 对 应 的 因子 载荷 





G = 


VI1VAL 
Vol VA 





Vi2V A 站 
V22 VAL es 














由 于 A 和 B 





























UIm 入 
U2m V Mm 


wf | 


阵 记 为 G, 则 


VUlm V Am | 
V2m V 和 Am 


Vn1VAL Vn2V A i 
有 相同 的 非 零 特征 根 ， 


Unm 和 Am 














的 方差 , 因 
样品 点 同时 


此 可 以 月 





日 相同 的 








因子 轴 






































起 考虑 进行 分 类 ， 那 么 外 
联系 的 确 是 存在 的 , 因 
































而 这 些 特征 根 又 正 是 各 个 公共 因子 
司 时 表示 变量 点 和 样品 点 , 即 把 变量 点 和 




















中 的 每 一 个 元 素 zij 都 具有 双重 含义 , 同 
样本 是 不 可 分 割 的 , 指标 的 特征 如 均值 、 














的 取 值 来 表现 的 , 而 样本 的 特征 如 样本 属于 哪 一 类 型 , 正 是 通过 其 在 不 同 指 
标 上 的 取 值 来 表现 的 . 但 是 , 要 由 算 阵 4 的 特征 根 和 特 和 
E 根 和 特征 向 量 还 是 有 困难 的 , 因 
一 般 来 说 , 其 非 零 特征 根 也 不 相等 . 如 果 能 将 原始 数据 入 
成 为 Z, 使 得 4= GIF B= 22' ,| 














阵 刀 .xn 的 特 和 






























































反映 在 具有 相同 坐标 轴 的 因子 平面 上 , 以 便 对 变量 点 和 样品 点 一 
E 阵 Ayxp 与 矩阵 Bx 是 否 存 在 必然 的 联系 昵 ?这 种 
为 4pxp 和 B。 x n 都 来 自卫 











六 同样 的 原始 数据 Xxp Xnxp 





时 代表 指标 和 样本 ， 实 际 上 指标 与 











协 方差 等 是 通过 指标 在 不 同样 本 上 


















































为 4pxp 与 Bn 





E 向 量 直接 求 出 矩 
xn 的 阶 数 不 一 样 ， 


UU 

















E 阵 X 进 行 某 种 变形 后 
线性 代数 可 知 , 2'2 和 2Z2Z' 有 相同 的 非 零 














特征 根 , 记 为 Al > 和 2 > …: mw0 二 m < min (n,p), 设 w1,…Wwy 为 对 应 于 特征 


根 和 i, 


即 


. ,和 的 4 的 特征 向 





量 , 则 有 


2Z2'Iu; 一 ZAjuj 一 和 ja 


B(Zuj) = 8N(Zu) 
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上 式 表明 ,2 为 对 应 于 特征 模 

















FA 和; 的 B 的 特征 向 量 . 这 样 就 建立 起 了 因 





;的 B 的 特征 向 量 . 换 句 话说 , 当 为 对 应 于 入 
的 A 的 特征 向 量 时 , 则 Zwj 就 是 对 尽 了 
子 分 析 中 RR 型 与 Q 型 的 关系 , 而 且 使 计算 变 得 方便 多 了 . 





综 上 所 述 , 若 将 原始 数据 矩阵 变换 XX 为 2 时 , 则 指标 和 样本 的 协 方差 阵 可 


分 别 表示 为 4 = 2Z'2Z 和 = 22Z', A 和 B 具 
征 向 量具 有 很 密切 的 关系 , 这 样 就 可 很 方便 地 
到 Q 型 因子 分 析 的 结果 , 从 而 克服 了 大 样本 时 做 Q 型 
1 于 A 和 B 具 有 相同 的 非 零 特征 根 , 而 这 些 特征 村 
那么 在 p 维 指标 空间 R? 中 和 n 维 样本 空 i 
比重 就 完全 相同 , 即 指标 空间 



















































































FP 的 第 


























































































































司 的 非 零 特征 根 , 相应 的 特 
因子 分 析出 发 而 直接 得 
因子 分 析 计 算 上 的 
E 是 各 个 因子 所 提供 的 方差 ， 
各 个 主因 子 在 总 方差 中 所 
也 是 样本 空间 中 的 第 一 主因 子 ， 


困难 . 又 


占 的 








依次 类 推 . 这 样 就 可 用 相同 的 因子 轴 去 同 下 将 指标 和 样本 同 














何 将 X 变 换 成 2 





1970 年 , 法 国 统计 学 家 J.P.Beoecri 提 出 了 

















时 反映 在 有 相同 坐标 轴 的 因子 轴 的 





上 述 求 Z 的 方法 .基本 步 














因子 平面 上 . 因此 , 对 应 分 析 的 关键 在 于 如 


又 为 : 


X 标 准 化 处 理 一 * 求 指标 的 均值 ( 可 证 明 亦 是 样本 的 均值 ) 一 * 求 协 方差 矩 


阵 A 一 > 将 A 变形 为 4= ZZ 一 > A 


10.5.2”R 通 用 程序 























corresp (x, 





首先 我 们 要 用 指令 1ibrary (MASS) 加载 MASS 宏 包 ， 


可 完成 简单 对 应 分 析 , 其 基本 调用 格式 如 下 : 


corresp( ) 的 调用 格式 
































说 明 : x 是 数据 和 矩阵, nf = 1 表示 计算 因 





例 10.5.1 (妇女 就 业 问题 
的 调查 资料 , 主要 调查 她 们 对 “ 














度 , 依据 文化 程度 和 就 业 观 点 两 个 变量 进行 分 类 





解 ”及 程序 如 下 : 





> X.df=data.frame(HighlyFor=c(2，6，41， 
For =c(17，65，220，224，61) ， 


























团 
交 男 











子 个 数 , 具体 说 明 见 及 帮助 . 
A 

















72，24) ， 


Against=c(17，79，327，503，300) ， 
HighlyAgainst=c(5, 6, 48, 47, 41)) 


再 用 corresp( ) 函数 就 


区 已 婚 妇女 
了 3 女 在 家 操持 家 务 ” 的 态 
总 , 数据 如 表 10.5. 
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表 10.5 ”妇女 就 业 问 题 调查 

















| 就 业 观 点 
文化 程度 | 非常 同意 | 同意 | 不 同意 | 非常 不 同意 
小 学 以 下 2 17 17 5 

小 学 6 65 79 6 

初中 41 220 327 48 

高 中 72 224 503 47 

大 学 24 61 300 41 

















> rownames (x.df)<-c("BelowPrimary", "Primary", 


"Secondary", "HighSchool","College") 


> library (MASS) 
> biplot (corresp(x.df, nf=2)) 
































说 明 : biplot 作 出 像 因 子 分 析 的 载荷 图 那 术 
量 各 个 水 平 之 间 的 关系 . 

及 程序 结果 如 图 10.3. 
结果 说 明 : 

















EF 的 , 这样 可 以 直观 地 来 展示 两 个 变 

















1) 对 于 该 图 , 主要 看 横 坐 标的 两 种 点 (就 业 观点 与 文化 程度 ) 的 距离 , 纵 坐标 


的 距离 对 于 分 析 贡 献 意义 不 大 . 





2) 对 于 该 图 可 以 看 出 对 该 观点 持 赞 同 态度 的 是 小 学 以 下 , 小 学 , 初中 , 而 大 











学 文化 程度 的 妇女 主要 持 不 同意 或 者 非常 不 同意 的 观点 , 高 中 文化 程度 











的 持 有 非常 不 赞同 或 者 非常 同意 两 种 观点 





PR 
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图 10.3 
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第 十 章 习 题 

10.1 ”服装 定型 的 分 类 问题 为 解决 服装 定型 分 类 问题 , 对 128 个 成 年 人 

的 身材 进行 了 测量 , 每 人 各 测 得 16 项 指标 :身高 (Xi1), 坐 高 (X2), 胸围 (Xs), 头 





高 (X4), 裤 长 (Xs), 下 档 (X6), 手 长 ( 
厚 (X11)， 肩 宽 (X12)， 袖 长 (X13)， 肋 围 
的 相关 阵 见 第 363 页 表 10.6, 试 从 相关 阵 
第 十 章 习题 犯罪 问题 的 主 成 分 分 析 : 本 
犯罪 项 目 上 的 发 生 频 率 . 这 七 种 罪 分 别 是 : 谋杀 (MURDER)， 
虽 暴 (RAPE), 抢劫 (ROBBERY), 骚扰 (ASSAULT), 夜间 偷窃 


10.2 


州 (state) 在 七 利 



































X7), 领 四 




















上 发 进行 


(Xs), 前 胸 (Xo), 后 背 (X10), 记 
( Xi, 腰围 (Xi5), 腿 肚 (X16)，16 项 指标 
主 成 分 分 析 . 

侈 的 输入 资料 文 从 





























F 是 美国 











50 个 


(简称 夜 资 , BUR- 








GLARY), 盗窃 (LARCENY) 及 偷 车 (AUTO), 数据 如 表 10.7. 试图 用 主 成 分 分 
析 降 维 处 理 . 
表 10.7: 各 州 犯 罪 数 据 

州 名 谋杀 强暴 ” 抢 动 骚扰 夜 盗 盗 窍 偷 车 
Alabama 14.2 25.2 96.8 278.3 1135.5 1881.9 280.7 
Alaska 10.8 51.6 96.8 284.0 1331.7 3369.8 753.3 
Arizona 9.5 342 138.2 312.3 2346.1 4467.4 439.5 
Arkansas 88 27.6 832 203.4 972.6 1862.1 183.4 
California 11.5 49.4 287.0 358.0 2139.4 3499.8 663.5 
Colorado 6.3 42.0 170.7 292.9 1935.2 3903.2 477.1 
Connecticut 42 16.8 129.5 131.8 1346.0 2620.7 593.2 
Delaware 6.0 249 157.0 194.2 1682.6 3678.4 467.0 
Florida 10.2 39.6 187.9 449.1 1859.9 3840.5 351.4 
Georgia 11.7 31.1 140.5 256.5 1351.1 2170.2 297.9 
Hawaii 7.2 25.5 128.0 64.1 1911.5 3920.4 489.4 
Idaho 5.5 19.4 39.6 172.5 1050.8 2599.6 237.6 





续 下 页 
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各 州 犯罪 数据 ( 续 表 ) 








州 名 谋杀 强暴 抢劫 骚扰 夜 盗 盗窃 偷 车 
Illinois 99 21.8 211.3 209.0 1085.0 2828.5 528.6 
Indiana 7.4 26.5 123.2 153.5 1086.2 2498.7 377.4 

lowa 2.3 10.6 41.2 89.8 812.5 2685.1 219.9 
Kansas 6.6 22.0 100.7 180.5 1270.4 2739.3 244.3 

Kentucky 10.1 19.1 81.1 123.3 872.2 1662.1 245.4 
Louisiana 15.5 30.9 142.9 335.5 1165.5 2469.9 337.7 
Maine 2.4 13.5 38.7 170.0 1253.1 2350.7 246.9 
Maryland 8.0 34.8 292.1 358.9 1400.0 3177.7 428.5 
Masssachusetts 3.1 20.8 169.1 231.6 1532.2 2311.3 1140.1 
Michigen 9.3 38.9 261.9 274.6 1522.7 3159.0 545.5 
Minnesota 2.7 19.5 85.9 85.8 1134.7 2559.3 343.1 
Mississippi 14.3 19.6 65.7 189.1 915.6 1239.9 144.4 
Missouri 9.6 28.3 189.0 233.5 1318.3 2424.2 378.4 
Montana 5.4 16.7 39.2 156.8 804.9 2773.2 309.2 
Nebraska 3.9 18.1 64.7 112.7 760.0 2316.1 249.1 
Nevada 15.8 49.1 323.1 355.0 2453.1 4212.6 559.2 
New Hampshire 3.2 10.7 232 76.0 1041.7 2343.9 293.4 
New Jersey 5.6 21.0 180.4 185.1 1435.8 2774.5 511.5 
New Mexico 8.8 39.1 109.6 343.4 1418.7 3008.6 259.5 
New York 10.7 29.4 472.6 319.1 1728.0 2782.0 745.8 





续 下 页 
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各 州 犯罪 数据 ( 续 表 ) 





州 名 谋杀 强暴 抢 动 骚扰 夜 次 盗窃 偷 车 





North Carolina 10.6 17.0 61.3 318.3 1154.1 2037.8 192.1 


North Dakota 0.9 9.0 13.3 43.8 446.1 1843.0 144.7 


Ohio 7.8 27.3 190.5 181.1 1216.0 2696.8 400.4 
Oklahoma 8.6 29.2 73.8 205.0 1288.2 2228.l1 326.8 
Oregon 4.9 39.9 124.1 286.9 1636.4 3506.1 388.9 


Pennsylvania 5.6 19.0 130.3 128.0 877.5 1624.1 333.2 
Rhode Island 3.6 10.5 86.5 201.0 1489.5 2844.1 791.4 
South Carolina 11.9 33.0 105.9 485.3 1613.6 2342.4 245.1 


South Dakota 2.0 13.5 17.9 155.7 570.5 1704.4 147.5 


Tennessee 10.1 29.7 145.8 203.9 1259.7 1776.5 314.0 
Texas 13.3 33.8 152.4 208.2 1603.1 2988.7 397.6 
Utah 3.5 20.3 68.8 147.3 1171.6 C3004.6 334.5 

Vermont 1.4 15.9 30.8 101.2 1348.2 2201.0 265.2 

Virginia 9.0 23.3 92.1 165.7 986.2 2521.2 226.7 
Washington 4.3 39.6 106.2 224.8 1605.6 3386.9 360.3 


West Virginia 6.0 13.2 42.2 90.9 597.4 1341.7 163.3 
Wisconsin 2.8 12.9 52.2 63.7 846.9 2614.2 220.7 


Wyoming 5.4 21.9 39.7 173.9 811.6 2772.2 282.0 

















10.3 ”考试 成 绩 分 析 : 某 年 级 44 名 学 生 的 期 末 考 试 共有 5 门 课程 , 有 的 用 闭卷 ， 
有 的 用 开卷 , 数据 如 表 10.8. 试用 因子 分 析 方 法 分 析 这 组 数据 . 


























表 10.8: 考试 成 绩 分 析 数 据 





力学 ( 闭 ) ， 物理 ( 闭 ) ”代数 ( 开 ) 。 分 析 ( 开 ) 。 统计 ( 开 ) 
Si 义 ? Xs Xs > 
ol 2 67 67 81 
75 73 71 66 8] 
63 63 65 70 63 
51 67 65 65 68 
62 60 58 62 70 
52 64 60 63 54 
50 50 64 55 63 
31 55 60 57 73 
44 69 53 53 53 
62 46 61 57 15 
44 61 52 62 46 
12 58 61 63 67 
54 49 56 47 53 
44 56 55 61 36 
机 65 50 35 
30 69 50 59 45 
40 27 54 61 61 
36 59 51 45 51 
46 56 57 49 39 
42 60 54 49 33 
23 55 59 53 44 
41 63 49 46 34 





A 
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考试 成 绩 分 析 数 据 ( 续 表 ) 
力学 ( 闭 ) | 物理 ( 闭 ) ”代数 ( 开 ) ”分 析 ( 开 ) ”统计 ( 开 ) 
4 xX Xs Xa Xs 
63 78 80 70 81 
中 63 70 68 
53 61 72 64 73 
59 70 68 62 56 
i 60 62 45 
55 67 59 62 44 
65 63 58 56 37 
60 64 56 54 40 
42 69 61 55 5 
31 49 62 63 62 
49 41 61 49 64 
49 53 49 62 47 
54 53 46 59 44 
18 44 50 57 i 
32 45 49 57 64 
46 49 53 59 37 
31 42 48 54 68 
56 40 56 54 35 
” 人 55 56 40 
40 63 53 54 95 
48 48 49 51 37 
2 53 41 40 
10.4 ”医药 行业 数据 分 析 : 数据 集 ( 见 表 10.9) 中 的 数据 是 全 国医 药 行 业 20 个 
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资 (X2?)， 熏 利 /资金 占用 (Xs),， 销售 收入 /成 本 (Xa), 试用 因子 分 析 方 法 找 出 
这 4 个 变量 的 公 因 子 , 并 进行 合理 的 解释 . 






































企业 1980-1982 年 三 年 平均 效益 的 几 个 数据 , 总 产值 /消耗 (X1), 净 产 值 / 工 
凡 
合 














表 10.9: 医药 行业 效 数 据 





总 产值 /消耗 | 净 产 值 /工资 “” 盘 利 / 资 金 占用 销售 收入 /成 本 

Xi 又 > Xs 和 4 
1.611 10.59 0.69 1.67 
1.429 9.44 0.61 1.50 
1.447 5.97 0.24 1.25 
1.572 10.72 0.75 1.71 
1.483 10.99 0.75 1.44 
1.371 6.46 0.41 1.31 
1.665 10.51 0.53 1.52 
1.403 6.11 0.17 1.32 
2.620 21.51 1.40 2.59 
2.033 24.15 1.80 1.89 
2.015 26.86 1.93 2.02 
1.501 9.74 0.87 1.48 
1.578 14.52 本 区 1.47 
1.735 14.64 1.21 1.91 
1.453 12.88 0.87 1.52 
1.765 17.94 0.89 1.40 
1.532 29.42 2.52 1.80 
1.488 9.23 0.81 1.45 
2.586 16.07 0.82 1.83 
1,.992 21.63 1.01 1.89 
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10.5 ”胃癌 的 鉴别 : 表 10.10 是 从 病例 中 随即 抽取 的 部 分 资料 ,这 里 有 3 个 类 
别 (group): 胃癌 (ca)、 萎 缩 性 胃炎 (ga) 和 非 胃 炎 患 者 (non)， 从 每 个 总 体 抽 5 个 
病人 , 每 人 化 验 4 项 生化 指标 : 血清 铜 和 蛋白 (Xi)、 蓝 色 反 应 (X2)、 尿 乙酸 (Xs) 和 
中 性 硫化 物 (X4). 试 对 胃癌 检验 的 生化 指标 值 用 Fisher 判别 的 方法 进行 判别 


归 类 . 

























































































表 10.10: 胃癌 检验 的 生化 指标 值 











血清 铜牌 白 。 蓝 色 反应 ” 尿 乙 酸 ”中 性 硫化 物 
类 别 序号 x, Xx Xx, X, 
1 228 134 20 11 
2 245 134 10 40 
胃癌 患者 3 200 167 12 27 
4 170 150 7 8 
5 100 167 20 14 
6 225 125 7 14 
7 130 100 6 12 
芙 缩 性 胃炎 患者 8 150 117 7 6 
9 120 133 10 26 
10 160 100 5 10 
11 185 115 5 19 
12 170 125 6 4 
非 骨 炎 吕 者 13 165 142 5 3 
14 135 108 2 12 
15 100 117 7 2 








10.6 ” 设 有 6 个 产品 , 每 个 产品 测 得 一 项 质量 指标 X, 其 值 如 下 : 1, 2, 4, 6, 9， 
11. 试 对 6 个 产品 按 质量 指标 进行 分 类 , 试用 各 种 系统 聚 类 方法 进行 分 析 , 然后 
比较 之 . 

10.7 ”生活 消费 水 平 聚 类 分 析 : 表 10.11 中 的 资料 是 我 国 16 个 地 区 农民 1982 年 
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支出 情况 的 抽样 调查 的 汇总 资料 , 每 个 地 区 都 调查 了 反映 每 人 平均 生活 消费 支 
出 情况 的 六 个 指标 , 分 别 是 食品 (X1), 衣着 (Xa), 燃料 (X3), 住房 (Xs), 生活 用 
品 及 其 他 (Xs), 文化 生活 服务 支出 (Xo). 试 利用 调查 资料 对 16 个 地 区 进行 分 类 . 






























































表 10.11: 中 国 农民 1982 年 各 类 支出 























地 区 食品 衣着 。 燃料 ” 住房 生活 用 品 及 文化 生活 服务 
(area) Xi Xs > Xs 其 他 又 5 支出 X6 
北京 190.33 43.77 9.73 60.54 49.01 9.04 
天 津 135.20 36.40 10.47 44.16 36.49 3.94 
河北 95.21 22.83 9.30 22.44 22.81 2.80 
山西 104.78 25.11 6.40 9.89 18.17 3.25 
内 蒙 128.41 27.63 8.94 12.58 23.99 3.27 
辽宁 145.68 32.83 17.79 27.29 39.09 3.47 
吉林 159.37 33.38 18.37 11.81 25.29 5.22 
黑龙 江 | 116.22 29.57 13.24 13.76 21.75 6.04 
上 海 | 221.11 38.64 12.53 115.65 50.82 5.89 
江苏 144.98 29.12 11.67 42.60 27.30 5.74 
浙江 169.92 32.75 12.72 47.12 34.35 5.00 
安徽 153.11 23.09 15.62 23.54 18.18 6.39 
福建 144.92 21.26 16.96 19.52 21.75 6.73 
江西 140.54 21.50 17.64 19.19 15.97 4.94 
山东 115.84 30.26 12.20 33.61 33.77 3.85 
河南 101.18 23.26 8.46 20.20 20.50 4.30 
10.8 矿产 数据 的 典型 相关 分 析 : 为 了 了 解 某 矿区 下 部 矿 Pt( 铂 )， 


























Pd( 包 ) 与 Cu( 铀 )，Ni( 镍 ) 的 共生 组 合 规律 , 我 们 从 其 销 孔 中 取出 27 个 样品 ( 数 
据 见 表 10.12). 试用 典型 相关 分 析 研 究 Pt( 铂 ), Pd( 包 ) 与 Cu( 铜 ), Ni( 镍 ) 的 相关 
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表 10.12: 矿区 下 部 的 矿产 数据 





Pt( 铂 ) Pd( 名 ) Cu( 铜 ) ”Ni( 镍 ) 
a Xi X2 Xs Xa 
1 0.14 0.30 0.03 0.14 
2 0.20 0.50 0.14 0.22 
3 0.06 0.11 0.03 0.02 
4 0.07 0.11 0.04 0.13 
5 0.12 0.22 0.06 0.12 
6 0.52 0.87 0.19 0.20 
7 0.23 0.47 0.14 0.10 
8 1.19 0.38 0.09 0.11 
9 0.37 0.66 0.14 0.15 
10 0.36 0.60 0.14 0.15 
11 0.42 0.77 0.17 0.10 
12 0.35 0.85 0.30 0.19 
13 0.50 0.87 0.23 0.22 
14 0.56 1.15 0.29 0.28 
15 0.43 0.90 0.13 0.22 
16 0.47 0.97 0.26 0.22 
17 0.49 0.79 0.21 0.20 
18 0.47 0.77 0.51 0.22 
19 0.40 0.88 0.33 0.19 
20 0.66 1.30 0.21 0.30 
21 0.63 1.30 0.45 0.28 
22 0.52 1.43 0.31 0.23 
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ye 





矿区 下 部 的 矿产 数据 ( 续 表 ) 





序号 


23 
24 
25 
26 
27 


10.9 ”遗传 数据 的 1 
的 头 长 和 头 宽 , 可 以 想象 , 长 子 和 次 子 之 间 有 相当 的 相关 性 . 试 对 长 子 和 次 了 
之 间作 出 典型 相关 分 析 








Pt( 铂 ) 
Xi 
0.44 
0.03 
0.20 
0.04 
0.17 

















Pd( 名 ) Cu( 铜 ) ”Ni( 镍 ) 


又 X3 Xa 
0.87 0.17 0.25 
0.07 0.05 0.08 
0.28 0.04 0.08 
0.10 0.11 0.07 
0.28 0.15 0.09 


型 相关 分 析 : 表 10.13 列 举 了 25 个 家 庭 的 成 年 长 子 和 次 子 














JT. 











表 10.13: 长 子 和 次 子 的 遗传 数据 





长 子 头 长 ” 长子 头 宽 。 次 子 头 长 ”次 子 头 宽 


和 1 
191 
195 
181 
183 
176 
208 
189 
197 
188 
192 
179 


又 > Yi YY, 
155 179 145 
149 201 152 
148 185 149 
153 188 149 
144 171 142 
157 192 152 
150 190 149 
159 189 152 
152 197 159 
150 187 151 
158 186 148 


nN 


ra 





' 
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长 子 和 次 子 的 遗传 数据 ( 续 表 ) 
长 子 头 长 ”长 子 头 宽 ”次 子 头 长 ” 次 子 头 宽 
Xi X。 Yi Yo 
183 147 174 147 
174 150 185 152 
190 159 195 157 
188 151 187 158 
163 137 161 130 
195 155 183 158 
186 153 173 148 
181 145 182 146 
175 140 165 137 
192 154 185 152 
174 143 178 147 
176 139 176 143 
197 167 200 158 
190 163 187 150 
10.10 “农业 生产 的 典型 相关 分 析 : 对 表 10.14 中 给 出 的 2001 年 全 国 30 个 省 市 


























治 区 农业 产量 (主要 是 粮食 、》 
面积 、 化肥 施用 量 、 农 业 机 械 总 动力 ) 作 上 典型 


























料 ) 与 农业 投入 (农作物 总 播 利 
相关 分 析 . 





a 














表 10.14: 2001 年 全 国 30 个 省 市 自治 区 农业 产 

















wl 














Fh 面积 、 有 效 灌溉 











粮食 产量 
(万 吨 ) 
104.9 
143.3 


油料 产量 


(万 蝶 ) 
4.3 
3.9 


农作物 总 
播种 面积 
386.4 
544.5 


有 效 灌 
溉 面积 
322.7 
354.3 
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化 肥 施 用 量 ”农业 机 械 
(万 吨 ) 


15.7 
17.3 


总 动力 
395.0 
603.3 





2001 年 全 国 30 个 省 市 自治 区 农业 产量 ( 续 表 ) 






































粮食 产量 ”油料 产量 ”农作物 总 ”有 效 灌 “化肥 施用 量 ”农业 机 械 
地 区 | (万 吨 ) (万 吨 ) 播种 面积 “ 溉 面 积 (万 号 ) 总 动力 
河北 2491.8 153.8 8990.8 4485.4 273.4 7244.4 
山西 692.1 18.1 3672.3 1104.3 84.9 1767.5 
内 蒙古 | 1239.1 80.6 5707.3 2472.3 79.3 1423.6 
辽宁 1394.4 46.3 3964.8 1482.8 109.8 1401.3 
吉林 1953.4 34.3 4890.1 1382.6 114.1 1096.5 
黑龙 江 | 2651.7 36.3 9989.2 2090.4 123.2 1648.3 
上 海 151.4 12.8 490.9 280.6 20.3 133.9 
江苏 2942.1 232.5 7777.4 3900.0 338.0 2957.9 
浙江 1072.7 58.2 3245.9 1400.3 90.3 2017.2 
安徽 2500.3 298.8 8733.1 ”3228.7 280.7 3165.0 
福建 817.3 26.1 2713.1 942.4 117.4 888.8 
江西 1600.0 90.5 5534.7 1897.5 109.7 1002.0 
山东 3720.6 377.3 11266.1 4836.1 428.6 7689.6 
河南 4119.9 362.6 13127.7 4766.0 441.7 6078.7 
湖北 2138.5 279.4 7489.0 “2027.9 245.3 1469.2 
湖南 2700.3 137.4 7931.7 2676.3 184.3 2358.0 
| 东 1600.1 80.9 5193.1 1447.1 195.1 1760. 
广西 1511.4 57.2 6288.1 1519.6 168.1 1552.4 
海南 195.8 10.3 871.7 180.8 27.0 212.2 
重庆 1023.5 30.0 3555.9 631.9 72.6 628.1 
四 川 2926.5 181.0 9571.5 2533.0 212.0 1735.1 
贵州 1100.3 71.3 4650.7 659.8 70.0 647.9 
云南 1486.3 27.7 5929.6 1424.3 120.0 1397.8 
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2001 年 全 国 30 个 省 市 自治 区 农业 产量 ( 续 表 ) 



































粮食 产量 ”油料 产量 ”农作物 总 ”有 效 灌 ”化 肥 施 用 量 ”农业 机 械 
地 区 (Ww (万 吨 ) 播种 面积 “ 源 面 积 。 “(万 吨 ) ”总 动力 
西藏 98.3 4.4 230.9 154.4 3.0 123.2 
陕西 976.6 37.5 4331.9 1314.1 131.1 1099.8 
甘肃 753.2 38.4 3688.9 982.3 66.1 1122.0 
青海 103.2 23.0 529.0 208.3 7 264.7 
宁夏 274.8 7.3 1007.6 405.4 24.6 407.6 
新 给 780.0 42.6 3404.1 3138.1 83.3 880.9 











10.11 ”城镇 居民 消费 支出 结构 对 应 分 析 : 选取 8 个 反映 城镇 居民 消费 支出 
结构 的 指标 : Xi 一 食品 支出 比重 ; Xs 一 衣着 文 出 比重 ; Xs 一 家 庭 设备 用 品 及 
服务 支出 比重 ; XX 一 医疗 保健 支出 比重 ; Xs 一 交通 和 通讯 文 出 比重 ; X6 一 娱 
乐 教育 文化 服务 支出 比重 ; Xr 一 居住 文 出 比重 ; Xs 一 杂项 商品 文 出 比重 . 根 
据 《2000 年 统计 年 鉴 》 的 资料 ( 见 表 10.15), 进行 对 应 分 析 . 






















































































表 10.15: 城镇 居民 消费 支出 结构 





地 区 | XX X Xs X X: Xe X  Xs 
京 39.5 9.7 10 6.8 62 152 64 6.1 

津 42 85 119 52 49 126 98 5.2 

蓝 37.1 12.8 9 7.1 6.8 134 9.1 4.7 

晋 40.3 13.7 8.3 6 58 19 81 61 





内 37.6 15.1 73 55 72 133 83 5.6 
辽 | 43.4 13.9 6.2 7 6 11.2 83 41 
吉 42.7 13.4 5.5 6 6 12.6 9.8 4 
40.5 147 6.1 8 6.5 108 91 4.4 
苏 44.1 9 11.4 4.2 6 11.7 8.6 5 





浙 40.3 8.5 10.6 6.7 7.9 12.2 8.8 5 






































10.5 对 应 分 析 . 361 ， 
城镇 居民 消费 支出 结构 ( 续 表 ) 

地 区 | X: X Xs Xs X Xs  X  Xs 
皖 47.3 11 7 3.2 6.4 13.2 8 3.9 
国 51.4 8.1 63 3.1 77 88 102 4.4 
强 44.9 8.7 6.7 3.1 6 11.3 14.6 4.6 
鲁 37.1 13.6 12.2 4.9 6 13.3 82 4.7 
除 40.8 12.3 8.3 6 6.2 9.7 12 4.7 
胃 41.1 18 65 46 55 142 12.1 4.2 
湘 40.5 107 84 43 67 145 10.3 47 
贸 40.6 47 75 47 108 11.6 144 5.6 
桂 44.3 6.6 7.4 3.4 72 13.6 12.8 4.8 
项 51.2 4.6 5 43 82 19 78 6.9 
渝 42.3 108 95 43 74 134 81 41 
川 43.9 11.3 7.7 45 53 128 9.6 5 
黔 42.2 11 11.6 39 6.4 12 87 48 
滇 | 444 109 75 5.1 59 14 83 6.7 
藏 49.9 15.8 39 39 71 7 5.1 7.3 
陕 | 37.3 99 113 6.6 58 124 19 4.8 
甘 | 41.4 128 8.9 6 56 122 6.8 6.2 
青 | 42.4 112 66 78 63 123 7.4 6 
38.8 13.6 7.7 8.9 7.1 12 6.4 5.5 
新 38.6 12.9 10.4 5.7 6 13 8.3 5.1 

10.12 ”在 研究 读 写 汉 字 能 力 与 数学 的 关系 的 研究 时 , 人 们 取得 了 232 个 美国 























亚 裔 学 生 的 数学 成 绩 和 汉字 读 写 能 力 的 数据 . 关于 汉字 读 写 能 力 的 变量 有 三 个 








水 平 :“ 纯 汉字 ”意味 着 
中 只 有 部 分 汉字 (比如 
而 数学 成 绩 有 4 个 水 























46 











可 以 完全 自 | 

















使 用 缆 


EF 汉字 读 写 ，“ 














和 汉字 ”意味 着 读 





写 




















文 ), 而 “ 纯 英文 ” 
F(A、B、C、F). 这 里 只 选取 

















意味 着 只 能 够 读 写 英文 而 不 会 汉字 . 
家 学 生 是 为 了 消除 文化 差 
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异 所 造成 的 影响 . 这 项 研究 是 为 了 考察 汉字 具有 的 抽象 图 形 符号 的 特性 能 否 会 
促进 儿童 空间 和 抽象 思维 能 力 . 列 联 表 形 式 数 据 如 表 10.4. 





























图 10.4 读 写 汉字 能 力 与 数学 的 关系 数据 











数学 A 数学 B ”数学 C 数学 F ”总 分 























汉字 ” 纯 汉 字 47 31 2 1 81 
使 半 汉 字 22 32 21 10 85 
纯 英文 10 11 25 20 66 





总 分 79 74 48 31 231 
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第 十 一 章 ” 贝 叶 斯 统计 分 析 


本 章 概 要 
今 贝 叶 斯 统计 分 析 介 和 
4 单 参 数 与 多 参数 贝 叶 斯 分 析 
仿 分 层 贝 叶 斯 分 析 
4 线性 回归 与 贝 叶 斯 分 析 



































811.1 。 贝 叶 斯 统计 分 析 与 经 典 统计 分 析 的 比较 

















统计 分 析 ( 推 断 ) 就 是 根据 来 自 未 知 概率 分 布 的 观测 数据 , 对 此 分 布 或 其 参 
数 作出 推断 , 如 给 出 分 布 中 参数 的 点 估计 、 区 间 估 计 或 对 某 假设 进行 检验 . 统 
计 分 析 主 要 有 两 大 学 派 , 即 贝 叶 学 派 与 频率 学 派 ， 有 时 称 为 贝 叶 斯 统计 分 析 和 
经 典 统计 分 析 , 在 历史 上 它们 之 间 曾 产生 过 很 大 的 分 由 , 因为 两 者 在 统计 推断 
的 基本 理论 和 方法 上 存在 很 大 的 差异 . 但 是 , 现在 它们 之 间 开 始 相 互 尊重 ,| 
此 推动 了 现代 数理 统计 的 发 展 和 许多 实际 问题 的 解决 . 在 叙述 与 讨论 贝 叶 斯 分 
析 之 前 我 们 先 对 两 者 之 间 的 差异 作 一 个 简单 的 对 比 . 

































































































































































Es 














11.1.1 经典 统计 分 析 中 存在 的 问题 


假设 检验 中 的 p 值 











贝 叶 斯 统计 学 家 认为 , 经 典 假设 检验 中 p 值 的 计算 违反 了 似 然 法 则 , 原因 在 
于 其 涉及 的 数据 信息 超出 了 观测 结果 本 身 . 例如 : 设 随 机 变量 Y ~ Bin(100, 0)， 





















































11.1 贝 叶 斯 统计 分 析 与 











经 典 统计 分 析 的 比较 
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其 中 0 为 未 知 参数 , 试验 结果 为 y = 8. 考虑 假设 检验 问题 


Ho:0=0.03 < 思 





按 经 典 的 统计 分 析 方 法 , 该 检验 的 p 值 为 








Pr(Y > yl|0) 


Pr(Y 


8|0 


0.03) 十 …. 











可 见 , p 值 的 计算 运用 了 大 于 等 于 











观测 结果 的 所 有 可 能 





:0 > 0.03 


+ Pr(Y = 100|0 = 0.03. 





直 . 而 贝 叶 斯 学 派 在 解决 

















此 问题 时 , 则 着 重 计算 Pr(9 > 0.03|Y = 8) 的 值 ( 称 为 9 > 0.03 的 后 验 概率 ). 








置信 区 间 





频率 学 派对 于 置信 区 间 的 解释 














是 ， 给 定 置信 水 平 (1 ~- a), 一 个 参 


























数 9 的 100(1 一 a)% 

















的 置信 区 间 就 是 一 
的 区 间 . 如 果 我 们 将 试验 重复 多 次 , 并 按 这 种 方法 计算 出 置信 区 间 , 那么 其 





个 按 某 种 方法 





大 约 有 100(1 一 Qa)% 的 比例 包含 参数 0 的 真 值 . 
容易 看 出 , 这 种 区 间 估 计 存 在 这 样 的 儿 个 问题 : 











1) 对 于 经 典 的 统计 学 家 而 言 , 参数 0 


此 频率 学 派 不 外 
2) 经 典 统计 
上 肠 方 法 

































































分 布 及 不 可 习 


























断 的 精度 主要 取决 于 样本 量 的 大 小 ， 
蝎 难 以 实现 . 
3) 对 于 非 对 称 分 布 、 多 峰 





















































信息 与 先 验 信息 构 





造成 这 些 问题 的 原因 在 于 , 经 } 
上 理解 一 切 统计 推断 的 结论 
相反 地 , 贝 叶 斯 学 派 认 为 参数 是 服从 于 某 一 


造 置信 区 间 ( 在 贝 叶 斯 分 析 





统计 学 派 














参数 以 某 一 特定 概率 落 入 该 
说 的 话 : “有 95% 的 概率 这 个 


















































参数 0.” 


11.1.2 ”对 贝 叶 斯 统计 分 析 的 质疑 及 褒奖 


关于 主观 性 





























鉴于 贝 叶 斯 统计 分 析 对 于 经 





i 





统计 分 析 的 强烈 冲击 , 其 独树一帜 的 





是 固定 而 未 知 的 , 它 没有 分 布 可 言 . 因 
EE 说 “有 95% 的 概率 使 得 参数 9 落 在 置信 区 间 中 ”. 


(如 极 大 似 然 方法 ) 构 造 


















































E 复 的 数据 , 此 类 置信 区 
贯 用 频率 来 解释 概率 , 并 在 此 基础 


分 布 的 随机 变量 ， 
通常 称 为 可 信 区 间 


因而 当 数 据 量 较 少 时 , 该 





辣 很 难 获得 . 





























首 结 合 数据 
间 ), 使 该 未 知 

















区 间 . 这 样 , 贝 叶 斯 学 派 就 可 以 说 频率 学 派 不 可 以 
区 间 包 含 








E 汤 理 
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贝 叶 斯 统计 分 析 





念 也 不 断 受到 质疑 . 首先 , 在 样 
的 选择 相当 敏感 








变量 ”这 一 想法 也 很 难 被 接受 . 





贝 叶 斯 统计 学 家 对 这 
验 (difuse prior) 以 及 敏感 性 分 析 等 方法 弱化 2 
知 参数 的 随机 性 仅 旨 在 体现 对 此 参数 所 包含 信息 尼 


上 的 随机 


























两 点 质疑 的 世 














本 量 较 小 时 , 未 知 参数 的 估计 往往 对 先 验 分 布 


因而 不 少 人 认为 此 法 过 于 主观 . 其 次 ,“ 将 未 知 参数 视 为 随机 


自分 析 时 可 以 通过 模糊 先 
We A 者 果 的 影 啊 ; 同时 , 未 




















角 定 ， 而 非 实 际 意 义 


贝 叶 斯 统计 分 析 与 经 典 统计 分 析 的 根本 区 别 在 于 , 贝 叶 斯 学 派 将 已 有 的 认 


识 或 知识 视 为 是 主观 的 (用 先 验 分 布 来 表示 ),， 因 
, 鉴于 其 分 析 所 用 的 模型 囊括 了 似 然 函数 以 及 先 验 分 布 两 部 



































但 在 大 多 数 问题 ， 
分 信息 , 因此 仍 不 失 其 客观 性 . 











贝 叶 斯 统计 分 析 的 优势 




















而 有 时 也 被 认为 具有 主观 性 


贝 叶 斯 统计 分 析 有 着 经 典 统计 分 析 所 无 可 比拟 的 优势 , 主要 有 





1) 它 结合 了 数据 的 信息 与 参数 的 


认 知 ; 

















2) 与 经 典 统计 分 析 相 比 , 它 的 理 1 


闻 扒 : 已 ， 
于 本 ; 


3) 它 不 但 




















能 对 缺失 数据 、 















































稳健 的 估计 . 





























811.2 


贝 叶 斯 数据 分 析 涉及 两 类 估计 上 
一 类 则 是 可 以 潜在 观测 的 时 


接 观 测 ; 另 











或 尾数 据 等 进行 简明 处 理 ， 








事实 上 , 在 不 少 统计 问题 9 
法 仅仅 是 贝 叶 斯 统计 方法 的 特例 . 局 
经 典 统计 方法 所 无 法 阐述 的 问题 





FP, 诸如 线性 回归 、 非 参数 统计 等 所 
其 统 计 分 析 还 能 直观 地 解释 某 些 
,诸如 此 前 提 到 的 置信 区 间 问 题 等 . 




















贝 叶 斯 统计 分 析 与 先 验 








斯 统计 分 析 的 基本 步骤 包括 ; 
































过 样本 数据 更 新 先前 的 





且 不 需要 繁杂 的 假设 及 数 


黄 型 进行 全 面 而 


经 典 统计 方 








分 布 的 选取 


通常 所 说 的 参数 , 它 ( 们 ) 不 可 直 
寺 预 测 的 未 来 的 观测 值 . 贝 叶 




















1) 建立 一 个 完整 的 概率 模型 . 它 包括 两 部 分 ， 即 参 数 的 先 验 分 布 和 观测 数 
据 的 抽样 分 布 ; 
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2) 对 数据 进行 条 件 化 得 到 后 验 分 布 : 计算 后 验 分 布 , 并 对 它 进 行 合理 的 解 
释 ; 
3) 对 模型 的 拟 合 及 后 验 结果 进行 评估 (包括 合理 性 、 敏 感性 等 ). 












































11.2.1 ” 贝 叶 斯 公式 
































贝 叶 斯 学 派 的 起 点 是 贝 叶 斯 的 两 项 工作 : 贝 叶 斯 定理 和 丰 叶 斯 假设 . 贝 叶 
斯 定理 (或 贝 叶 斯 公式 ) 有 三 种 形式 . 























贝 叶 斯 公式 的 事件 形式 























设 事件 41, 42,..., A 为 互 不 相 容 的 事件 ， 它 们 的 和 包含 事件 B, 即 B c 
k 
U 4;, 则 有 
$= 





2 AP OB A 


= 1,2,...,k. (11-2.1) 


贝 叶 斯 公式 的 离散 分 布 形式 

















设 X,Y 为 随机 变量 ， 其 中 XxX 为 离散 型 的 ， 其 分 布 列 为 P(X = zi) = 
Dx(2i 二 1,2,.... 当 X = zi 时 , YY 对头 的 条 件 密度 函数 ( 若 Y 是 连续 的 ) 或 分 
布 律 ( 若 Y 为 离散 的 ) 为 PByjx(y|x), 则 给 定 Y = y 时 了 对 Y 的 条 件 列 pxjy (zxi|y) 可 
表示 为 








px (xi)pylx(y|zi) 





pxly (zily) = = 村 2 生 信 和 (11-2.2) 


> py (ey)py x (Ue) 


贝 叶 斯 公式 的 连续 分 布 形式 


设 随机 变量 X,Y 的 联合 密度 函数 为 p(z,y) = px(z)py|x(y|z). 其 
中 px(z) 为 X 的 边际 密度 函数 ,pyjx(y|z) 为 当 和 = zz 时 了 对 和 的 条 件 密度 函 
数 . 于 是 当 Y = y 时 针对 Y 的 条 件 密度 函数 pxjy (zx|) 可 表示 为 





px(x)pylx(y|z) | 
[fo, px(T)py|x (yz) dr 





pxly (7X|y) = (11-2.3) 
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贝 叶 斯 定理 


以 后 用 y = (加 ,加 .表示 数据 , 9 表示 不 可 观测 的 未 知 参数 ， 它 可 以 
是 一 维 的 , 也 可 以 是 多 维 的 , j 表 示 一 个 未 知 但 可 潜在 观测 的 量 ( 简 称 为 预测 
量 ). 在 贝 叶 斯 分 析 中 y 的 抽样 分 布 (也 称 为 似 然 函数 ) 表 示 为 p(y|0)， 在 抽样 2 
前 , 我 们 对 于 0 可 能 有 一 定 的 了 解 ( 称 为 先 验 信息 ), 并 用 分 布 p(9) 来 表示 , 称 之 
为 9 的 先 验 分 布 . 在 没有 样本 信息 时 ， 人 们 只 能 根据 先 验 信息 对 9 作出 推断 ; 在 
有 了 观测 数据 y 后 , 就 可 结合 样本 的 信息 与 先 验 信息 对 0 作出 推断 , 而 样本 的 信 
息 与 先 验 信息 可 以 用 9 的 后 验 分 布 p(9|y) 进 行 综合 , 在 此 基础 上 可 以 得 到 j 的 预 
测 分 布 p( 引 y). 


由 上 面 的 贝 叶 斯 公式 可 得 : 
1) 若 0 是 连续 的 , 则 6 的 后 验 分 布 可 表示 为 


p(9)p(y|0) 





































































































































































































OY) ooAeA 11-2.4 
"0 “To pCO)ptyl0) a 

2) 若是 离散 的 , 则 9 的 后 验 分 布 可 表示 为 
ER 2 EE (11-2.5) 


2 7(0;)p(z|0;) 


2 


称 这 两 个 公式 为 贝 叶 斯 定理 (也 称 为 贝 叶 斯 公式 、 贝 叶 斯 法 则 ), 其 中 p(y) = 
/op(0)p(y|9)a0( 连 续 场 合 ) 或 p(y) = D7(0;)p(x|0;)( 离 散场 合 ) 为 y 的 边际 分 


J 
布 , 它们 与 参数 0 无 关 . 以 后 若 不 作 特 别 说 明 ,我们 仅 讨论 参数 是 连续 的 场合 . 
1 于 p(y) 不 含 9 的 任何 信息 , 因此 用 分 布 的 核 来 表示 , 贝 叶 斯 定理 可 简化 为 












































D(g|ly) cc p(0)p(y|0) (11-2.6) 














这 是 贝 叶 斯 统计 分 析 中 常 使 用 的 贝 叶 斯 公式 的 密度 函数 形式 . 
在 y 被 观测 到 之 前 , 它 是 有 分 布 可 言 的 , 并 称 








p(y) = | p(0)p(y|0)d0 


为 y 的 边际 分 布 或 先 验 预 测 分 布 . 而 当 y 一 经 观测 得 到 , 我 们 就 可 对 任 一 未 知 但 


11.2 贝 叶 斯 统计 分 析 与 先 验 分 布 的 选取 . 369 . 








可 观测 的 量 y 进 行 预测 , 其 后 验 分 布 为 





p(y|ly) = | ww oa 
人 (下 6 yp(Oly)ae 





= 人 op (因为 y 与 9 独立 ). (11-2.7) 


称 之 为 y 的 后 验 预测 分 布 . 


11.2.2” 先 验 分 布 的 选取 





贝 叶 斯 统计 中 要 使 用 先 验 信息 ,而 先 验 信息 主要 是 指 经 验 和 历史 资料 . 因 
此 如 何 利用 人 们 的 经 验 和 过 去 的 历史 资料 确定 概率 和 先 验 分 布 是 贝 叶 斯 统计 
推断 中 一 个 关键 性 问题 . 若 人 们 已 经 获得 有 关 参 数 的 先 验 信息 ， 则 可 先 确 定 先 
验 密度 函数 , 然后 根据 专家 的 经 验 或 利用 经 典 的 矩 估 计 或 极 大 似 然 估 计 确 定 先 
验 分 布 中 的 参数 〈 称 为 超 参数 ) . 先 验 密 度 函 数 的 形式 应 有 利于 后 验 推 新 ， 如 
选择 共 圈 的 先 验 分 布 . 知 没 有 先 验 信息 ， 则 可 使 用 无 信息 先 验 分 布 . 

为 方便 讨论 , 先 用 贝 叶 斯 观点 叙述 充分 统计 量 的 概念 : 

定义 11.2.1 ” 设 yi,y2,...,Wm 表 示 来 自 总 体 p(y|0) 的 样本 .对 于 参数 0 而 
言 , 统计 量 t(yi, yo ,Vyn) 称 为 充分 的 ， 如果 不 论 9 的 先 验 分 布 是 什么 相应 的 
后 验 分 布 p(9|yi,y2; ;yn) 总 是 9 和 t(yi,y2,.……. ,yn) 的 函数 . 

定义 11.2.1 告 诉 我 们 ， 后 验 分 布 是 通过 t(yi,yo,...,yn) 与 样本 yi,yo， 
.. ,yn 发 生 联系 的 . 充分 性 的 判定 可 使 用 著名 的 奈 曼 因子 分 解 定理 . 

定理 11.2.1 车 样本 yi,yo,...,Vyn 对 参数 9 的 条 件 密度 p(yi,yo， 
.名人 能 表示 成 /bt ,yn)) 与 9(y1;y2;… yn) 的 乘积 ， 则 t(yi, yo， 
.., Yn) 对 参数 0 是 充分 的 . 

例 11.2.1 设 y,y2,...,VYn 为 来 自 正 态 总 体 N(n,1) 的 样本 ， 则 样本 均 
值 7 是 参数 /的 充分 统计 量 . 

例 11.2.2 设 y1,y2,...,yn 为 来 自 正 态 总 体 N(0,o?) 的 样本 ， 则 样本 观 
测 值 的 平方 和 s? = 小 好 是 参数 o? 的 充分 统计 量 . 

t=1 




















































































































































































































先 验 分 布 的 选取 主要 有 三 种 方式 : 
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1) 





使 用 贝 叶 斯 假设 确定 和 完 验 分 布 : 


贝 叶 斯 假设 表述 为 : 参数 0 的 无 信息 先 验 分 布 p(0) 应 在 6 的 取 值 范围 9 内 
是 “均匀 ”分 布 , 用 数学 公式 表示 为 p(9) = cb e 9, 或 p(0)x1,0e 6, 其 
中 c 为 常数 , 9 可 为 无 限 区 间 ， 


在 贝 叶 斯 假设 下 , 似 然 函 数 L(0|yi,y2,.…. ,yn) 为 后 验 密度 的 核 , 即 























(Oyi, Ya Yn)CLO Yi, Yo,..., Yn). (11-2.8) 





如 果 t(y1,y2,.…. ,yn) 为 9 的 充分 统计 量 , 则 上 式 可 写成 


p(Olt)ocL(0lt). (11-2.9) 

















尽管 r(b)ccl,0 e 9 并 不 是 正常 的 密度 函数 (有 时 称 为 广义 密度 函数 )， 
而 其 后 验 密度 (11-2.8) 和 (11-2.9) 通 常 为 正常 的 密度 函数 .因此 有 时 也 
称 (11-2.8) 或 (11-2.9) 为 贝 叶 斯 假设 . 























使 用 杰 弗 莱 原 则 确定 无 先 验 信息 : 

贝 叶 斯 假设 中 的 一 个 矛盾 是 : 如 果 对 参数 0 选用 均匀 分 布 , 那么 当 9 的 
函数 g(O) 作 为 参数 时 ， 也 应 该 选用 均匀 分 布 作为 先 验 分 布 . 然而 由 0 遵从 
均匀 分 布 这 一 前 提 , 往往 导出 g(0) 不 是 均匀 分 布 , 反之 也 然 . 杰 弗 莱 为 了 
克服 这 一 矛盾 提出 了 选取 先 验 的 不 变 原 理 一 并 被 称 为 杰 弗 莱 原 则 

杰 弗 莱 原 则 有 两 个 部 分 : 一 是 对 无 信息 先 验 分 布 有 一 合理 的 要 求 ; 
男 一 部 分 是 给 出 一 个 具体 的 方法 去 求 得 符合 要 求 的 先 验 分 布 . 现 设 按照 
同一 准则 决定 的 9 的 先 验 分 布 为 (0), 7 = g(9) 的 先 验 分 布 为 ps(”), 由 它 
们 应 满足 关系 : 






















































































































































































P(0) = po(9(O))|9 (0). (11-2.10) 
杰 弗 莱 巧 妙 地 利用 了 费 获 信息 阵 的 一 个 不 变性 质 ， 找 到 了 满 
足 (11-2.10) 要 求 的 先 验 分 布 p(0): 9 的 无 信息 先 验 分 布 应 以 信息 阵 1(9) 的 
行列 式 的 平方 根 为 核 , 即 























2D(g)cc|7(9)1 2， (11-2.11) 

















0 可 以 是 问 量 


丽 败 二 加 (全 | (ee = 
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El 
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00 
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于 T( 信 是非 负 定 的 ,|7(0)| > 0, 因此 |7(O)1272 有 意义 . 按 (11-2.11) 所 确定 
的 先 验 分 布 的 确 具 有 不 变性 ， 因 为 我 们 可 以 证 明 下 面 的 定理 . 
定理 11.2.2 ” 设 g(9) 是 9 的 函数 , m = 9(0) 与 9 具有 相同 的 维 数 , 则 











































































































Vol er aA (1-2.12) 














3) 共 斩 分 布 法 

定义 11.2.2 。” 设 yi,yo,...,Yn 表 示 来 自 总 体 p(y|0) 的 样本 ， 先 验 分 

布 p(9) 称 为 9 的 共 轧 先 验 分 布 ， 如 果 后 验 分 布 p(9|y1,y2,... ,yn) 与 p(0) 是 
同一 类 型 的 , 即 它们 的 核 有 相同 的 形式 . 





























共 轿 先 验 分 布 的 二 个 优点 : 1) 计算 方便 ; 2) 后 验 分 布 的 一 些 参数 可 以 得 到 入 
好 的 解释 ( 见 后 面 的 例子 ). 然而 贝 叶 斯 统计 中 先 验 分 布 的 选取 以 合理 性 作为 首 
要 原则 ， 而 计算 的 方便 是 第 二 位 的 . 一 般 的 做 法 是 : 在 没有 其 有 的 先 验 信息 时 ， 
采用 贝 叶 斯 假设 或 更 为 一 般 的 杰 弗 莱 原则 采用 无 信息 先 验 分 布 . 但 是 使 用 贝 叶 
斯 统计 分 析 方 法 的 主要 目的 是 充分 利用 专家 的 经 验 和 历史 数据 , 特别 是 在 小 样 
本 场合 与 多 参数 场合 经 典 的 统计 分 析 方 法 显得 特别 困难 或 无 能 为 力 时 , 这 时 选 
取 一 个 合理 的 先 验 分 布 . 先 验 分 布 选取 的 合理 性 显得 尤为 重要 : 贝 叶 斯 统计 分 
析 中 先 验 分 布 的 选取 带 有 主观 性 (这 是 这 种 方法 受到 批评 或 攻击 的 原因 ), 我 们 
使 用 贝 叶 斯 统计 分 析 方 法 应 尽 可 能 将 先 验 信息 通过 先 验 分 布 客观 地 反映 到 统 
计 分 析 中 ， 以 弥补 数据 中 信息 的 不 足 ， 从 而 达到 客观 合理 地 解决 实际 问题 的 目 
的 . 具体 方法 可 参考 营 诗 松 的 教材 (1999)， 




















































































































































































































































































































11.2.3 ” 贝 叶 斯 分 析 体 现 了 科学 探索 过 程 





设 已 观测 到 数据 yi, 则 由 贝 叶 斯 定理 , 得 后 验 分 布 








D(gly) ~ p(y1|0) x p(0). 
假设 后 来 义 观 测 到 数据 ys( 与 yj 独立 ), 则 


p(y1, y2|0) = p(y1|0) x p(y210). 

















因此 , 再 由 贝 叶 斯 定理 , 得 后 验 分 布 




















p(Olyi,y2) © p(0) x p(y1|0) x p(y2|0) 
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= p(0|yi) x p(y2|0). 











从 上 述 公式 我 们 可 以 看 到 这 样 一 个 过 程 : 由 数据 yi 对 先 验 p(9) 作 出 更 新 得 到 后 
验 分 布 p(9|yi); 在 观测 到 数据 yp 后 , 将 p(0|yi) 视 为 新 的 先 验 分 布 ,并 由 yz 对 它 
作出 更 新 得 到 后 验 分 布 p(9|y,y2). 这 个 过 程 可 以 不 断 重复 , 由 此 随 着 对 于 参 
数 9( 或 相关 的 分 布 ) 的 信息 不 断 增加 , 将 得 出 更 符合 实际 (数据 ) 的 结论 . 这 个 过 
程 体现 了 科学 研究 的 不 断 探索 过 程 . 

注 : 本 章 随 机 变量 或 其 观测 值 均 用 小 写字 母 表示 . 在 试验 或 观测 之 前 它 被 
视 为 是 随机 的 , 其 分 布 称 为 抽样 分 布 或 数据 分 布 ; 在 试验 或 观测 之 后 它 就 被 视 
为 样本 或 数据 , 这 时 抽样 分 布 就 转化 为 似 然 函数 (作为 参数 的 函数 ). 














































































































811.3 ” 单 参 数 贝 叶 斯 统计 分 析 


所 谓 单 参数 模型 (分 布 ), 即 统计 模型 中 仅 含 有 一 个 未 知 参数 . 常用 的 单 参 
数 模型 有 两 项 分 布 、 正 态 分 布 (其 中 仅 有 一 个 参数 未 知 )、 泊 松 分 布 、 指 数 分 布 
等 . 本 节 讨 论 基于 此 类 模型 下 的 贝 叶 斯 统计 推断 . 





















































11.3.1 ”两 项 分 布下 的 贝 叶 斯 推断 








设 随机 变量 y 代 表 n 次 贝 努 利 试验 中 的 某 事 件 A “成功” 的 次 数 , 参数 0 代表 
每 次 试验 成 功 (事件 A 发 生 ) 的 概率 . 9 也 可 表示 总 体 中 具有 某 种 特征 的 个 体 所 占 
的 比例 . 由 于 n 次 贝 努 利 试验 独立 , 因此 y 服 从 二 项 分 布 Bin(n,y), 即 






























































p(y|0) = Bin(y|n,0) = CY0Y(1 — 6) %. (11-3.1) 








在 两 项 分 布 模型 下 进行 贝 叶 斯 统计 推断 , 还 需 给 出 参数 0 的 先 验 分 布 . 














1) 基于 贝 叶 斯 假设 的 无 信息 先 验 分 布 























若 事 先 没 有 关于 参数 9 的 任何 信息 , 则 通常 假设 其 服从 [0, 1] 上 的 均匀 分 布 ， 
即 得 到 最 简单 的 先 验 分 布 p(g)ccl, 即 贝塔 分 布 Beta(1,1)， 从 而 根据 贝 叶 斯 公 
式 导出 0 的 后 验 分 布 为 : 


























p(Oly)oc0Y1 一 0 人， 
即 
by ~ Beta(y +1,n—y+1). (11-3.2) 


11.3 单 参数 贝 叶 斯 统计 分 析 :BT 








2) 基于 杰 弗 莱 原 则 的 无 信息 先 验 分 布 

















由 (11-3.1) 不 难得 到 (请 读者 自己 证 ) 














1(9) = CEE 





因此 由 杰 弗 莱 原 则 ,得 到 b 的 先 验 分 布 








D(g)ocg-U2(1 一 人 -UV2， 




















即 9 服 从 贝塔 分 布 Beta(1/2,1/2). 因此 由 贝 叶 斯 公式 得 到 9 的 后 验 分 布 为 : 














nO) (I = 0 he, 
即 
by ~ Beta(y +1/2,n — y+1/2). (11-3.3) 
3) 基于 共 斩 先 验 分 布 
取 6 的 先 验 分 布 为 贝塔 分 布 Beta(a, 9), 即 


p(0)oc0°-1(1 — 0)8-1. 








由 抽样 分 布 (11-3.1) 及 先 验 分 布 得 9 的 后 验 分 布 为 : 











p(0ly) Ot 1(1 OA， 


bly ~ Beta(y 十 a) 风 一 十 站 ). (11-3.4) 


1 此 我 们 可 以 得 到 结论 : 






































1) 对 于 二 项 分 布 中 参数 9, 基于 贝 叶 斯 假设 与 基于 杰 弗 莱 原 则 的 先 验 可 以 视 
为 共 斩 先 验 的 特例 ; 














2) 由 于 贝塔 分 布 Beta(a, 6) 分 布 的 均值 与 方差 分 别 为 


opB 
(at+B)2(a+B+1) 








BO) = sg Yar(O) = 
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故 在 共 思 先 验 下 参数 9 的 贝 叶 斯 估计 (后 验 均值 ) 为 


y+oa 
0 = ——————. 11-3.5 
nt+att+p ( ) 


3) 9 的 贝 叶 斯 估计 的 解释 : = 各 可 视 为 仪 利用 先 验 信息 对 参数 6 的 估计 ，# 则 


为 利用 样本 对 参数 0 的 估计 ， 而 6 的 后 验 贝 叶 斯 估计 (11-3.5) 为 上 述 二 个 估 
计 的 加 权 平 均 , 即 


十 da QG 十 人 Q: n y 


= x | x 
ni+at+B ni+at+B aa+O n+t+at+p nn 









































4) 一 个 新 的 观测 值 y( 假 定 与 y,.…. ,yn 独立 ) 的 预测 值 为 





FE | Pr(y = 1|0,y)p(0ly)ad 


9p(0ly)d = E(Oly) = 





下 面 通过 一 些 例子 来 说 明 贝 叶 斯 分 析 中 的 影响 因素 . 

例 11.3.1 相同 数据 下 ,不 同 先 验 分 布 对 贝 叶 斯 分 析 的 影响 : 
设 yl0 ~ Bin(n,0), n = 10,y = 3 先 验 分 布 取 为 Beta(a;,8)， 其 中 
超 参 数 取 9 组 (a, 8) = (0.5,0.5)，(0.5,1.0)，(0.5,1.5)，(1.0, 0.5)，(1.0,1.0)， 
(1.0, 1.5), (1.5,0.5), (1.5,1.0), (1.5,1.5). 图 11.1 给 出 了 9 种 先 验 分 布 及 相应 的 
后 验 分 布 (及 程序 从 略 )， 
结论 : 在 相同 的 数据 下 ， 先 验 对 于 后 验 有 一 定 的 影响 , 但 这 种 影响 不 是 很 明显 . 

例 11.3.2 相同 先 验 及 样本 容量 下 , 不 同 观测 对 贝 叶 斯 分 析 的 
影响 : 设 y|9 ~ Bin(n,0), n = 10, 9 取 无 信息 先 验 Beta(1,1), 图 11.2 给 出 
了 vy = 0,1,2,3,4,5 时 6 种 后 验 分 布 . R 程 序 如 下 : 
































x=seq(0,1,0.01) 

n=5 

z=dbetal(x,1,1) 
Zz0=dbeta(x,1,n+1) 
zil=dbeta(x,1+1,n-1+1) 
Zz2=dbeta(x,2+1,n-2+1) 
Zz3=dbeta(x,3+1,n-3+1) 


V V VvV VvV VvV VvV YYV 
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“375. 





V V VvV VvV VvV Vv YYV 


post 


a=1,B=1 


a=0.5,B=1 


a= 0.5.B=1.5 




















© 





mean=0.32,postmax=0.28 postmean=0.30,postmax=0.26 postmean=0.29,postmax=0.2: 











A 


0.0 02 0.4 0.6 0.8 1.0 


Qa=1,B=0.5 





T T T T T T 
0.0 02 0.4 0.6 0.8 1.0 


Qa=1,B=1 





T T T T T T 
0.0 02 04 0.6 0.8 1.0 


a=1,B=1.5 











postmean=0.35,postmax=0.32 pQstmean=0.33,postmax=0.30 pestmean=0.32,postmax=0.2! 








06 0.8 1.0 1.2 




















T T T T T 
0.0 02 0.4 0.6 0.8 1.0 


a=1.5,B=0.5 





T T T T 
0.0 02 0.4 0.6 0.8 1.0 


X 


a=1.5,B=1 





T T T T T T 
0.0 02 04 0.6 0.8 1.0 


a=1.5,B=1.5 











postmean=0.38,postmax=0.35 pestmean=0.36,postmax=0.33 postmean=0.35,postmax=0.3; 
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wn 二 


二 过 
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oy 








口 了 


时 | 

S 
| + 
oo = 
= 2 -| 
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T I T T T T 
0.0 02 0.4 06 0.8 1.0 





而 











Z4=dbeta(x,4+1,n-4+1) 
Zz5=dbeta(x,5+1,n-5+1) 
z.df=data.frame(cbind(z,2z0,2z1,22,2z3,2z4,25)) 

matplot (x, Zz.df, ylim=c(0,4), xlab="x", ylab="", 
col=1:6, type="1", lwd=2) 


text (0. 
text (0. 
text (0. 
text (0. 
text (0. 
text (0. 
text (0. 


20,3,"y=0") 
25,2.5,"y=1") 
4,2.2,"y=2") 
55,2.2,"y=3") 
75,2.5,"y=4") 
95,3,"y=5") 
08,1.1,"Prior") 





T T T T T T 
0.0 02 0.4 0.6 0.8 1.0 





T T T T T T 
0.0 02 04 0.6 0.8 1.0 


11.1 后 验 分 布 : Be(a 十 y,n 一 y 十 人) 
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图 11.2 后 验 分 布 : Be(a 十 y,n 一 y 十 6B) 


结论 : 在 相同 的 样本 容量 下 , 不 同 的 观测 对 后 验 的 影响 很 明显 . 

例 11.3.3 ” 随 着 观测 信息 的 增加 (样本 容量 的 增加 ), 不 同 先 验 对 贝 
叶 斯 分 析 的 影响 : 设 y|9 ~ Bin(n,0), 9 取 3 种 先 验 分 布 Beta(1,1), Beta(2,5)， 
Beta(10, 1), 考查 2 种 观测 数据 : n = 5,y = 1 和 n = 50,y = 10, 这 时 经 典 的 极 
大 似 然 估计 均 为 9 = 0.2. 图 11.3 给 出 了 3 种 先 验 对 后 验 分 布 的 影响 与 样本 容量 
的 关系 . R 程 序 如 下 : 












































x=seq(0,1,0.01) 
par (mfrow=c(1,3)) 
# 左 侧 图 形 -- 先 验 


> 
> 
> 
> zi=dbeta(x,1,1); 
> 
> 
> 





Zz2=dbeta(x,5,2); 
z3=dbeta(x,1,10) 
z.df=data.frame(cbind(z1 ,2z2,2z3)) 
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Vv 


matplot (x,z.df, xlab="y", ylab="", 
col=c("black", "red", "blue'), 
type="1", lty=1:3, lwd=2) 





text (0.8,6,"Priors") 

# 中 间 图 形 -- 后 验 : n=5, y=1 
n=5 

y=1 


zi=dbeta(x,y+1,n-y+1); 
Z2=dbeta(x,y+5,n-y+2); 
Zz3=dbeta(x,y+1,n-y+10) 
z.df=data.frame(cbind(z1 ,2z2,2z3)) 


V V V V V VvV VvV Vv YYV 


matplot (x,z.df, xlab="y", ylab="", 
col=c("black", "red", "blue'), 
type="1", lty=1:3, lwd=2) 

text (0.8,3.5,"Posterios") 

text (0.8,3.3,"n=5, y=1") 

# 右 侧 图 形 -- 后 验 : n=50，y=10 

n=50 

y=10 

zi=dbeta(x,y+1,n-y+1); 

ZzZ2=dbeta(x,y+5,n-y+2); 

Zz3=dbeta(x,y+1,n-y+10) 

z.df=data.frame(cbind(z1,2z2,2z3)) 

matplot (x,z.df, xlab="y", ylab="", 
col=c("black", "red", "blue'"), 
type="1", lty=1:3, lwd=2) 

text(0.8,4.5,'"Posterios") 

text (0.8,4.3,"n=50, y=10") 














VY YY VV YW YY YY 


vV YYV 


结论 : 随机 样本 容量 的 增加 ， 先 验 对 后 验 的 影响 逐渐 减 小 . 这 说 明 在 小 样本 场 
合 , 先 验 的 选取 较为 重要 , 但 随机 数据 信息 的 增加 , 先 验 在 贝 叶 斯 分 析 中 的 敏 
























































4) 基于 后 验 分 布 的 推断 








前 面 我 们 已 经 看 到 后 验 分 布 是 已 有 的 数据 信息 对 先 验 信息 更 新 调整 的 结 
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Posterios 
n=5, y=1 




















图 11.3 


果 , 它 概括 了 参数 的 一 














随机 样 





切 信息 , 如 我 们 最 为 关心 的 后 验 均值 、 

















本 信息 的 增加 的 后 验 分 布 变化 


后 验 众 数 、 后 验 

















方差 或 标准 

















差 、 后 验 置信 区 间 . 后 验 均 值 、 























准 差 反映 了 贝 叶 斯 估 
式 , 其 一 是 等 尾 的 置信 区 











度 (Highest Probability Density) 置 


但 前 者 更 为 常用 , 在 后 验 分 布 对 称 或 近似 对 
计 ( 点 佑 

















计 或 区 间 估 计 ) 





后 验 众 数 都 可 作为 贝 
称 时 ,二 者 一 致 ; 后 验方 差 或 标 
的 精度 ; 贝 叶 斯 置信 区 间 有 两 种 形 


叶 斯 点 估计 ， 




















区 间 , 这 与 经 典 的 区 间 估 计 一 致 ， 其 二 


信 区 间 , 殿 















































的 区 


是 指 所 


则 估计 是 最 短 的 ， 
等 尾 的 , 它 很 容易 


另外 ,在 一 些 实际 问题 
例如 ,在 考虑 某 地 区 女性 出 4 
布 Bin(n,0) 描 述 , 这 时 我 们 不 仅 关 心 参数 9, 更 为 关心 的 是 男性 与 





其 函数 的 统计 性 质 . 























但 其 计算 需要 使 用 数 
由 后 验 分 布 的 分 位 数 求 得 . 









































称 为 最 高 概率 密 


优点 是 在 相同 的 置信 水 平 下 这 样 
直方 法 . 本 书 讲 的 贝 叶 斯 置信 区 间 























,我 们 不 仅 关心 分 布 中 的 参数 本 身 ， 更 关心 
E 率 时 , 样本 可 用 二 项 分 























的 比率 p = 与 ， 有 时 


log(9/(1 一 90)). 对 于 0 


从 9 的 后 验 分 布 中 随机 抽取 








在 五 
的 变换 ， 





























数 足 够 大 时 , 理论 上 可 





























要 基于 后 验 样本 进行 





























布 具有 更 好 的 对 称 性 ， 
面 通过 一 个 具体 的 例 





子 予 以 说 明 . 





这 样 可 以 借助 正 态 

















例 11.3.4 蛙 
受孕 而 导致 胎盘 


























期 在 德国 进行 了 
位 置 过 低 的 分 娩 中 , 有 437 例 为 女 婴 . 























女性 出 生 





究 社会 问题 时 还 关心 6 的 1ogit 变 换 1ogit(0) = 











其 后 验 分 布 通常 不 易 获 得 , 但 我 们 可 以 通 i 
取 一 系列 的 样本 ,从 而 获得 其 函数 的 样本 ， 当 
以 获得 这 些 参 数 或 其 函数 的 精确 后 验 分 布 ， 因 
断 就 足够 了 . 这 是 贝 叶 斯 统计 分 析 
在 多 参数 场合 其 优势 更 为 明显 . 另外 ,对 参数 进行 适当 的 变换 ， 可 以 
近似 求 得 它们 的 贝 叶 斯 置信 


P 最 为 常用 


项 试验 ,其 结果 显示 , 在 980 例 





Es 





1 样 次 
而 我 们 只 
的 方法 ， 
使 后 验 分 
区 间 . 下 





















































因 非 正常 


此 能 和 否 判断 在 此 类 非 
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正常 分 娩 中 , 女 婴 的 出 生 率 小 于 0.485 呢 ? 


解 可 以 认为 这 980 名 孕妇 中 , 女 婴 的 出 生 数 y 服 从 二 项 分 布 Bin(n, 9), 现 
已 知 n = 980,y = 437. 假设 我 们 对 0 没有 任何 可 用 的 信息 ， 故 用 无 信息 先 验 分 
布 Beta(l,1) 作 为 6 的 先 验 . 则 9 的 后 验 分 布 为 0|y ~ Beta(438, 544). 






































1) 首先 计算 0 后 验 均值 、 标 准 差 、 中 位 数 及 95% 置 信 区 间 , R 程 序 如 下 : 
































alpha <- 438 

beta <- 544 

postmean<-alpha/ (alphat+beta) 

print("The posterior mean is") 

print (postmean) 
poststd<-sqrt(alpha*beta/ (alphat+beta) “2/(alphat+beta+1)) 
print("The posterior standard deviation is") 

print (poststd) 

postmedian<-qbeta(0.5, alpha, beta) 

print("The median based on 

posterior distribution is") 

print (postmedian) 

CI_95<-c(qbeta(0.025,alpha, beta), qbeta(0.975, alpha, beta)) 
print("The 95% posterior confidence interval is") 

print (CI_95) 


WV Vo VV YY VV VV VY VY VV YY YX 








J 上 述 程 序 得 到 9 后 验 均 值 、 标 准 差 、 中 位 数 及 95% 置 信 区 间 分 


















































0.4460285 
0.01585434 
0.4459919 
(0.4150655 0.4771998) 





[ye) 
a 


运用 随机 模拟 方法 , 根据 9 的 后 验 分 布 进行 推断 , 即 产 生 1000 个 Beta(438， 
544) 的 随机 数 , 并 计算 其 后 验 均值 、 标 准 差 、 中 位 数 和 基于 正 态 近似 
的 95% 置 信 区 间 . 及 程序 如 下 : 



























































> alpha <- 438; beta <- 544 
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theta <- rbeta(1000, alpha, beta) 

sort_theta <- sort(theta) 

spostmean <- mean(theta) 

spoststd <-sd(theta) 

spostmedian <- sum(sort_theta[500:501])/2 

approxCI_95 <-c(spostmean-1.96*spoststd, spostmean+1.96*spoststd) 
print (spostmean) 

print (spoststd) 


print (spostmedian) 


V V VV V VV V VV VvV VvV VV 


print("The 95% confidence interval of theta 
based on normal approximation is") 


> print (approxCI_95) 








结论 : 运行 上 述 程序 得 到 6 后 验 均 值 、 标 准 差 、 中 位 数 及 95% 置 信 区 间 分 
别 为 : 















































0.4463512 
0.01531046 

0.4461134 
(0.4163427，0.4763597) 





它们 与 直接 从 后 验 分 布 计算 的 结果 几乎 没有 差异 


3) 基于 随机 模拟 ， 计 算 两 种 变换 logit(0) 风 = (1 一 9/9 的 后 验 均值 、 标 准 
差 、 中 位 数 和 基于 正 态 近 似 的 95% 置 信 区 间 . 及 程序 如 下 : 






































alpha <- 438; beta <- 544 

theta <- rbeta(1000, alpha, beta) 

logit_theta <- log(theta/(1-theta)) 
sort_logit_theta <- sort(logit_theta) 
slogit_median <- sum(sort_logit_theta[500:501])/2 
slogit_postmean <- mean(logit_theta) 
slogit_poststd<-sd(logit_theta) 

L <- slogit_postmean-1.96*slogit_poststd 
U<-slogit_postmean+1 .96*slogit_poststd 
approxlogit_CI=c(L, U) 
approx_CI=c(exp(L)/(itexp(L)), exp(U)/(1itexp(U))) 


ww WY WY WW 
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print (slogit_postmean) 
print (slogit_poststd) 


print (slogit_median) 


VY YY VY 


print("The 95% confidence interval of logit(theta) 


based on normal approximation is") 


Vv 


print (approxlogit_CI) 


Vv 


print("The 95% confidence interval of theta 
based on normal approximation is") 

print (approx_CI) 

# phi 的 推断 

phi<-(1-theta)/theta 

sort_phi <- sort(phi) 

sphi_median <- sum(sort_phi[500:501])/2 

sphi_postmean<-mean (phi) 

sphi_poststd <- sd(phi) 

L<-sphi_postmean-1.96*sphi_poststd 

U<-sphi_postmean+1 .96*sphi_poststd 

approxphi_CI<-c(L, U) 

print (sphi_postmean) 

print (sphi_poststd) 

print (sphi_median) 


print("The 95% confidence interval of phi=(1-theta)/theta is" ) 


VV VV VV YY VY VV YY YY VY YY 


print (approxphi_CI) 












































结论 : 运行 上 述 程 序 得 到 logit(0) 后 验 均 值 、 标 准 差 、 中 位 数 及 95% 置 信 
区 间 分 别 为 : 


-0.2157638 

0.0635593 
-0.2182796 
(-0.34034002，-0.09118757) 








而 6 = (1 一 0)/9 后 验 均值 、 标准 差 、 中 位 数 及 95% 置 信 区 间 分 别 为 : 


























1.243318 
0.07920171 
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1.243803 
〈1.088082，1.398553) 











另外 , 由 logit(0) 的 反 变 换 得 9 的 95% 置 信 区 间 为 (0.4157269, 0.4772189)， 
与 前 面 的 结果 也 基本 相同 . 


4) 作出 0, logit(9) 和 9 = (1 一 0)/9 的 频数 直方 

















| 


. 及 程序 如 下 : 














alpha <- 438; beta <- 544 

theta <- rbeta(1000,alpha,beta) 

par (mfrow=c (1 ,3)) 

#Fig(1,1)-- histogram of theta 

par (mar=c(5,4,2,1)) 

hist(theta, breaks = seq(0.35,0.55,0.005), 
xlim = c(0.35,0.55) ， 
main="", xlab=quote(theta), 
probability="T") 

#Fig(1,2) -- histogram of log(theta) 

logit_theta <- log(theta/(1-theta)) 

breaks <- quantile(logit_theta, 0:20/20) 

par (mar=c(5,4,2,1)) 

hist(logit_theta, breaks = seq(-0.5,0.1,0.01) ， 


ww WY 


ww VY YY 


xlim = c(-0.5,0.1), main="", 
xlab=quote(logit (theta)==log(theta/(1-theta))), 
probability=T) 
#Fig(1,3) -- histogram of phi=(1-theta)/theta 
phi=(1-theta)/theta 
breaks <- quantile(phi, 0:20/20) 
par (mar=c(5,4,2,1)) 
hist(phi, breaks = seq(0.8,1.6,0.01), 
xlim = c(1.0,1.6) ， 
main="", xlab=quote(phi==(1-theta)/theta), 


V VvV VvV VvV YYV 


probability=T) 











结论 : 运行 上 述 程 序 得 到 图 11.4， 由 于 欧洲 人 种 新 生 儿 的 男女 比率 一 般 
为 1.06( 即 女 婴 出 生 率 为 0.485), 因此 根据 % 的 中 位 数 及 其 基于 正 态 近似 下 
得 95% 置 信 区 间 (1.088082, 1.398553) 推 新 , 女 婴 出 生 率 在 上 述 非 正 常 分 娩 
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口 了 习 mm 口 了 mn nn 
[ T 1 1 Tr T T T T T 1 T T T T 1 
0.35 0.40 0.45 0.50 0.55 -0.5 -0.3 -0.1 0.1 人 
0 logit(6) =log(6/(1-9)) =(1-6)/6 
图 11.4 由 6 的 后 验 分 布 产 生 的 1000 个 随机 样本 的 直方 图 . 


11.3.2 正 


我 们 先 考 虑 仅 有 一 个 观测 值 的 情形 , 然后 





















































































































































状况 下 ,有 








断 ， 结果 机 


目 同 . 























布下 的 贝 叶 斯 统计 推断 


实 比 一 般 情况 下 要 低 . 此 例 也 可 利 














































































































用 

















t 轿 先 验 分 布 假设 进行 推 


E 到 多 个 观测 值 的 一 般 情形 
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1) 单一 正 态 观 测 值 , 方差 已 知 时 




















设 观测 值 y 服 从 正 态 分 布 W(b, o2), 其 中 已 知 , 则 y 的 似 然 函数 为 


和) 


202 





p(y|0) = BP ( 


根据 似 然 函 数 的 形式 不 难 推 得 9 的 共 轿 先 验 密度 为 正 态 分 布 9 ~ N (yo, 台 ), 即 





p(0) exp (去 4 = 站 











其 中 jw0, 台 为 超 参 数 (假定 已 知 ), 由 此 可 得 0 的 后 验 密度 


pl exp (3 二 |). 


2 2 
0 70 











经 整理 后 得 





pbloxem ( -Bs(0 mm) ) (11-3.0) 











即 6 ~ N(11, 7?), 其 中 





记 M0 十 点 9 





2 (11-3.7) 
1 1 1 

= | 11-3.8 
7 Te 02 ( ) 















































。 在 正 态 分 布 中 , 方差 的 倒数 称 为 精度 . 因此 (11-3.7) 表 示 后 验 均值 等 先 验 
均值 与 观测 值 y 的 加 权 平 均 , 其 权 数 就 是 两 者 相应 的 精度 . 









































。 (11-3.8) 后 验 精 度 等 于 先 验 精度 与 数据 精度 之 和 . 














最 后 再 考虑 后 验 预测 分 布 . 由 (11-2.7) 得 , 未 来 观测 值 y 的 预测 分 布 为 




















二 p(HlO)p(Oly) dao 


品 /mm (- 去 @ _ 0)) ee (- 去 @ 三 站 db. 


11.3 单 参数 贝 叶 斯 统计 分 析 . 385 . 

















1 于 上 述 积 分 的 被 积 函 是 (7 分 二 次 型 的 指数 , 因此 (5,0) 服 从 联合 正 态 分 布 ， 
从 而 jy 的 边际 分 布 , 即 p(j|y) 是 正 态 的 ， 因 此 我 们 只 需求 出 其 期 望 E(j|y) 和 方 
差 Var (Gy). 而 由 E( 中 0) = 0, Var( 四 9) = 0? 可 得 
























































E(Yly) = E(E(Y|0, y)|y) = EONY) = 11, 


Var(gly) = E(Var(y|0,y)|y) + Var(E(Y|0,y)|y) 
= E(o?|y) + Var(bly) 
二 oa2 十 72. 
所 以 
yy ~ N(p,0° + Ti). 
1 此 我 们 得 到 结论 : 

















。 的 预测 分 布 的 均值 等 于 后 验 均值 ; 
































。 预测 分 布 的 方差 等 于 模型 的 方差 与 来 自 9 的 后 验 不 确定 性 的 方差 祝 之 和 |. 


2) 多 个 正 态 观 测 值 , 方差 已 知 时 








设 y = (y1,.…,9) 为 一 系列 独立 同 分 布 的 观测 值 , y, ~ N(9,0?),i = 
1,.…n, 其 中 2 已 知 . 则 = 一 Yi/n 为 充分 统计 量 , 目 




















yO ~ N(n,o/n). 


























1 此 不 难 将 多 观测 值 情形 转化 为 单一 观测 值 情形 来 研究 , 从 而 得 到 
































pOly1,..., Yn) = p(0|D) = N(Olpn, 7), (11-3.9) 
其 中 
ee (11-3.10) 
Hn 二 -2. 
0 
1 1 Nn 





= 4 (11-3.11) 
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未 知 观测 值 y 的 预测 分 布 为 


Jy ~ NO 十 了) (11-3.12) 

















值得 一 提 的 是 , 在 先 验 精度 较 低 或 样本 容量 较 大 时 ( 即 区 -co, n 固 定 ; 或 n 一 
co, 天 固定 ), 则 有 如 下 近似 














p(0ly) ~ N(Oly,o°/n). 





此 即 无 信息 均匀 先 验 p(0)ccl 下 的 后 验 分 布 , 这 是 容易 理解 的 . 
3) 多 个 正 态 观测 值 , 均值 已 知 时 

若 胃 ,yn 心 N(0,o?), 其 中 9 已 知 . 此 时 似 然 函 数 为 
—n/2 


exp(——s? (11-3.13) 


p(ylo’ )x(o”) D3 sh) 


1 nN 
i Ds 
t= 


为 充分 统计 量 . 由 于 c2 的 共 斩 先 验 分 布 为 逆 伽 玛 分 布 TGa(a, 9), 即 











岗 


p(c?)cc(c) 1) exp(—B/o”), 





在 此 先 验 下 , o? 的 后 验 分 布 为 


+ s2/2 
D(a?|s%)oc(a Ott) exp (2) ; 
即 
2| .2 加 Sp 
0 |s ~ IGa 是 ; (11-3.14) 


4) 泊 松 分 布 

















单位 时 间 内 、 单 位 面积 或 单位 空间 中 某 事 件 ( 设 为 A) 发 生 的 次 数 常 可 用 泊 
松 分 布 来 刻 划 , 例如 单位 时 间 内 飞机 起 飞 或 下 降 的 次 数 、 单 位 时 间 内 某 交 通路 
通过 的 车 辆 数 、 单 位 面积 内 的 害虫 数 等 等 都 可 用 泊 松 分 布 来 描述 . 


设 y = (加 ,on) 为 来 自 泊 松 分 布 Poisson( 人 的 容量 为 "的 样本 , 参数 9 表 
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示 事 件 出 现 的 频率 (强度 ). 则 y = (1).… ,yn) 的 似 然 函 数 为 : 
1 
L(9ly) = p(yl0)= |I Re 
i=1 ” 
oc 0'(We "0, (11-3.15) 














其 中 t(y) = 
即 


5 ,yi 为 充分 统计 量 .1 














p(0)xe 0"! 


于 6 的 共 箔 先 验 分 布 为 伽 玛 分 布 Gata, 人 )， 








与 似 然 函 数 对 照发 现 , 我 们 可 以 将 先 验 理解 为 : 在 8 次 先 验 观察 中 事件 A 出 现 











了 a 一 1 次 . 
由 此 容易 得 到 9 的 后 验 分 布 

















Oly ~ Gamma(a + ng, 8 +n), 


其 中 y = t(y)/n. 


个 自然 的 推广 是 : y; ~ Poisson(72;0),i = 
中 6 为 某 疾病 的 发 病 率 , x; 为 个 体 i 的 暴露 (可 能 受 

















L(0|y) = p(y|0)% exp {0 > = 全 | 


bg 仍 取 共 辊 先 验 Ga(a, 9), 则 其 后 验 分 布 为 





(11-3.16) 


1,2,… ,n. 在 流行 病 学 研究 
感染 ) 时 间 , 这 时 有 似 然 函 数 














(11-3.17) 


by ~ Gamma (ee (11-3.18) 


5) 指数 分 布 


以 一 定 的 频率 9 独立 出 现 的 事件 的 时 间 间 隔 (等 

















述 , 许多 产品 的 寿命 


8 也 可 用 指数 来 刻 划 , 其 密度 


dl 


待 时 间 ) 可 用 指数 分 布 来 描 


函数 为 


p(y|0) = bexp{—y0}, y > 0， 
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记 为 Exp(1/0). 指数 分 布 具 有 独特 的 无 记忆 性 , 即 








Pr(y>t+sly> s,0)= Pr(y > #0) Vs,t >0. 


对 于 数据 y = (,.…. ,yn), Yi ~ Exp(1/0), 基于 共 轿 先 验 分 布 Ga(a, 6B), 得 9 的 后 


ly ~ Gamma ( 十 mu, B 十 | ， (11-3.19) 


= 


$11.4 ”多 参数 贝 叶 斯 统计 分 析 











许多 实际 的 统计 问题 都 含有 多 个 未 知 参 数 , 但 人 们 通常 上 只 对 其 中 的 一 部 分 
参数 感 兴趣 , 其 余 参 数 称 为 “讨厌 ”参数 . 在 处 理 这 类 问题 时 , 贝 叶 斯 方法 与 其 
他 传统 的 推断 方法 有 明显 的 优势 . 















































11.4.1 方法 概述 











假设 参数 (向 量 )9 由 两 部 分 组 成 ,9 = (91,0o), 其 中 01 为 感 兴趣 的 参数 ,0, 为 
讨 大 参数 . 设 数据 y 的 分 布 为 p(y|01,02), 9 的 先 验 分 布 为 p(0 0。), 则 0 与 0 联合 
后 验 密度 函数 为 














p(01, 02|y)p(y|01, 02)p(01, 02). (11-4.1) 
在 联合 后 验 密度 函数 中 对 02 求 积分 , 得 到 0 的 边际 后 验 密度 








= / p(01, 05|y) a0, 


/ ND (11-4.2) 


11.4.2” 正 态 分 布 参 数 中 的 贝 叶 斯 分 析 








设 y 过 (yi1, Ss ,Yn) ~ Mw NN(,0? ), 其 ER 中 和 o? 均 未 知 . 在 此 仅 考 虑 独立 无 信 





D(o )oc(o ) 
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此 时 (jw,07) 的 联合 后 验 密度 为 


1 己 
poly) co 5 1- 二 | 


i=1 








opd 3[(n ~ 1)s* + n(y 9) 





其 中 样本 均值 5 与 样本 方差 s? 为 充分 统计 量 . 上 式 对 / 求 积 后 得 到 




















1 
p(o2|y, s2)oco ("1D)/? exp 人 -去 z[(n— eal (11-4.3) 
0 


即 z2 的 后 验 服从 倒 伽 玛 分 布 TGa( 1, De)， 


在 实际 问题 中 总 体 均 值 /通常 是 感 兴趣 的 参数 , 将 联合 后 验 密度 对 c? 求 积 ， 
得 到 




















ee n(y— |" 
p(uly,s )cc [ 于 机 | | 
即 


ER y,s2 ~ t(n— 1). (11-4.4) 





11.4.3 ”随机 模拟 方法 








在 大 多 数 的 实际 问题 中 , 像 上 面 正 态 分 布 那样 能 够 得 到 感 兴趣 参数 的 边际 
后 验 分 布 是 很 少 的 . 然而 我 们 可 以 通过 随机 模拟 的 方法 获得 边际 后 验 分 布 的 样 
本 . 由 公式 (11-4.2), 得 到 9 的 边际 后 验 样 本 的 抽样 方法 为 : 






































第 一 步 : 从 p(92|y) 中 抽取 0。; 
第 二 步 : 从 p(91|92,y) 中 抽取 1. 
































上 述 二 步 不 断 重 复 即 可 得 到 所 需要 的 后 验 样本 . 
例 11.4.1 除了 从 t 分 布 (11-4.4 直 接 抽取 样本 外 , 我 们 也 可 按 下 面 的 二 
步 简 接 获得 /的 后 验 样本 ; 





























步 : 按 倒 伽 玛 分 布 从 p(o?|y) 中 抽取 o?; 


第 一 
第 二 步 : 从 p(j|o2,y) ~ N(y,o2/n) 中 抽取 jy. 


第 十 二 党 


贝 叶 斯 统计 分 析 















































有 时 可 能 过 到 边际 后 验 p(92|y) 无 法 得 到 显 式 表 示 , 特别 是 在 多 参数 贝 叶 斯 


分 析 中 , 这 时 经 常 采用 Gibbs 抽 样 法 . 在 两 个 参数 01, 0 场合, 只 需要 改变 一 下 上 








面 的 第 一 步 . 整个 算法 变 成 














第 一 步 : 给 定 外 的 初始 值 
第 二 


步 : 从 p(9。 01， y) 中 抽 取 02; 














第 三 步 : 从 p(01|92,y) 中 于 











上 取信 


























将 此 抽取 过 程 重 复 进行 , 即 得 到 























保证 独立 性 , 在 使 用 之 前 应 舍 去 没有 达到 平衡 状态 的 那些 相 





下. 


























面 的 例子 . 


11.4.4 ”一 个 实例 





除 正 态 分 布 等 少数 模型 之 儿 




















日 于 





表示 . 在 实际 应 用 中 , 经 常 采 


























个 在 新 药 开 发 中 动物 试验 的 实 


列 . 





例 11.4.2 ”在 药物 以 及 








其 他 一 些 化 学 合成 齐 


























试验 的 数据 可 以 表示 为 


(zi, ni, yi) => | 2 ,, 





Be 














F 本 . 


最 后 , 若 上 述 一 维 的 边际 后 验 分 布 或 条 件 后 验 分 布 不 易 抽样 , 则 可 以 采用 
近似 的 离散 化 格式 点 抽样 方法 , 它 也 适 月 





拓 的 开发 过 程 中 , 需 做 毒性 测 
试 , 即 在 一 批 动物 身上 注射 不 同 剂 量 的 药物 , 设 动物 的 反应 由 两 个 对 立 的 结果 
来 描述 , 例如 “生存 ”或 “死亡 ”. 此 类 





系列 基于 后 验 分 布 的 01 与 9 的 后 验 样本 . 为 























二 维 分 布 的 抽样 , 其 实施 方法 见 下 


, 一 般 多 参数 模型 都 无 法 得 到 后 验 分 布 的 显 式 


j 随 机 模拟 的 方法 来 解决 这 类 问题 . 下 面 给 出 一 








有 为 动物 的 分 组 数 , ww; 表示 第 ? 批 动物 的 动物 个 数 , zx; 表示 第 i 批 动物 接受 的 


剂量 水 平 (通常 以 对 数 形式 出 现 ), 多 表示 第 ? 批 动物 服用 剂量 z; 后 出 现 阳性 反应 


的 动物 数 (如 “死亡 ”或 “有 肿块 ”的 动物 数 ). 




















现 有 一 批 动 物 共 20 只 分 为 4 组 ， 


组 注射 相同 的 剂量 . 具体 数据 见 表 11.1. 如 何 根据 试验 数据 判断 该 药物 的 毒性 


呢 ? 


解 我 们 在 无 信息 先 验 下 分 


模型 建立 


对 于 第 ; 批 动物 , ni; 个 动物 样 





本 的 试验 





步 讨论 模型 的 建立 与 贝 叶 斯 分 析 . 





结果 可 认为 相互 独立 ， 





| 此 可 导出 二 
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: 391 ， 



































表 11.1 动物 的 注射 药物 后 的 阳性 反应 
剂量 (log(g/m?)) 动物 个 数 死亡 个 数 
-0.86 5 0 
-0.30 5 1 
-0.05 5 3 
0.73 5 5 
项 分 布 抽样 模型 
yil0i; ~ Bin(ni, 0;), 
其 中 0; 死 亡 率 . 同时 0 ,0 也 可 认为 相互 独立 ， 且 在 许多 场合 中 可 假 




















设 0 与 zz 有 如 下 线性 关系 


回归 分 析 











为 考查 动物 的 死亡 率 与 接受 药 1 





查 logit(yi;/ni) 对 zi, i 二 1,2,3,4 的 





> logit<-function(x){ 
y=log (x/ (1-x)) 
return(ly) 

} 

bioassay<-data.frame( 

x <= €(-0.86, =0.30, 

n <- c(5, 5, 5, 5),， 

y <- c(0.01, 1, 3, 4.99), 

r <- logit(y/n)) 

plot (x,r) 


-0.05， 


lm.bioassay<-lm(formula = I 


YYMYMMYMVYVYVY YY 


abline(lm.bioassay) 





下 .不 人 








为 新 剂量 的 关系 (11-4.5) 














碟 口 口 导 ， 








01, ww = 4.99. 及 程序 如 下 


0.73) ， 


xX) 


回归 关系 . 由 于 yi = 0 和 % = 5 
得 logit(yi;/ni;), 故 适当 微调 : Wi = 0. 


(11-4.5) 


我 们 考 


才 无 法 求 
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> summary (lm.bioassay) 





回归 分 析 的 结果 为 : 


Call: 
lm(formula = r ~ x) 
Residuals: 
1 2 3 4 
-0.2190 0.2572 0.1069 -0.1450 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 0.6870 0.1383 4.967 0.038226 +* 
bd 7.7681 0.2368 32.810 0.000928 +*** 
Signif. codes: 0 ‘***” O.001 ‘**” 0.01 ‘* 0.05 ‘.” 0.1 “” 1 


Residual standard error: 0.2707 on 2 degrees of freedom 
Multiple R-Squared: 0.9981, Adjusted R-squared: 0.9972 
F-statistic: 1076 on 1 and 2 DF, p-value: 0.0009277 














图 11.5 和 回归 分 析 的 结果 都 表明 上 述 假设 是 合理 的 . 且 得 到 a 和 6 的 估计 分 别 
为 & = 0.69 和 = 7.77, 标准 误差 分 别 为 0.1 和 0.24. 





贝 叶 斯 估计 


























若 关 于 参数 a 和 6 没有 可 以 利用 的 先 验 信息 , 则 采用 无 信息 先 验 p(a, 6)ocl. 
这 时 后 验 分 布 即 为 似 然 函数 











pla, Bly,n,7) 民 Do B)p(yla, 6) 
-pa j 
[Ge (4) 








我 们 用 后 验 众 数 作为 参数 a 和 6 的 点 估计 , 也 即 极 大 似 然 估计 , 这 可 直接 利用 软 
件 包 stats4 中 的 函数 mle( ) 求 得 , 下 面 的 及 程序 先 定义 后 验 密度 函数 和 负 对 数 
似 然 函数 , 最 后 调用 函数 mle( ), 具体 代码 为 : 
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Relation between logit death rate with dosage level 














-0.5 0.0 0.5 








图 11.5 ”由 6 的 后 验 分 布 产 生 的 1000 个 随机 样本 的 直方 图 . 





























bioassay.post<-function(alpha=0.1,beta=5)1 

k<-4 

X <- c(-0.86, -0.30, -0.05, 0.73) 

n <- c(5, 5, 5, 5) 

y <- c(0, 1, 3, 5) 

prod<-1 

prod <- prod((exp(alphatbeta*x)/(1itexp(alphatbeta*x[i])))“y 
*(1/(1texp(alphatbeta*x)))” (n-y)) 


YW oY Yo YY WY-Y 


Vv 


return(prod)} 


Vv 


mlpost<-function(alpha=0.1,beta=5){-log(bioassay.post(alpha,beta))} 


Vv 


mle(mlpost) 








得 到 的 贝 叶 斯 估计 ( 极 大 似 然 估计 ) 为 & = 0.85 和 = 7.75. 
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后 验 密度 及 离散 化 抽样 








由 (11.4.4) 无 法 得 2 因而 无 法 得 到 相应 的 后 验 样 
本 .我 们 这 里 介绍 一 种 连续 密 度 的 格子 点 离散 化 方法 我 们 先 
画 出 在 取 值 范围 (a, 8) e |[- 0 x [一 10,40| 的 等 高 线 图 (等 高 线 分 
为 0.05,0.15,:… ,0.95 共 10 水 平 , R 程 序 如 下 : 


















































modedensity<-bioassay.post (0.87,7.91) 
alphax<-seq(-5,10,1length=1000) 
betay<-seq(-10,40,1length=1000) 
post<-outer(alphax,betay,'bioassay.post') 
par (mfrow=c(1 ,2)) 


V V VvV VvV Vv YYV 


contour (alphax ,betay ,post, 
levels=seq(0.05,0.95,1length=10) 
*modedensity, xlim=c(-5,10), 
ylim=c(-10,40), xlab=quote(alpha), 
ylab=quote(beta), drawlabels= FALSE) 











支行 得 到 图 11.8(a), 此 图 表明 a 与 有 一 定 的 正 相关 性 . 


对 联合 后 验 密度 在 (a, 8) e [一 5,10] x [一 10, 40] 的 1000 x 1000 个 格子 点 处 
离散 化 并 抽样 的 步骤 为 : 












































1) 计算 p(a, Bly,n,z) 在 所 有 格子 点 处 的 值 ; 
2) 正则 化 使 2 > p(a, Bly) = 1 得 到 离散 的 联合 后 验 分 布 列 . 
a 6 

















3) 














公式 p(aly) = jp(a, Bly) 得 到 a 的 边际 后 验 分 布 ; 
Bb 


4) 从 离散 的 p(al|y) 中 抽取 1000 个 a; 


5) 对 抽 得 的 每 一 个 a, 由 离散 化 条 件 分 布 p(B|a,y)( 也 需要 正则 化 ) 抽 取 相 应 
的 8 值 . 























获得 1000 个 后 验 样本 点 及 相应 的 散 点 图 ( 见 图 11.8) 的 R 程 序 如 下 ( 续 上 ): 


— 





> post<-post/sum(post) 
> posta<-apply (post,MARGIN=1 ,FUN=sum) 
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w<-posta/sum(posta) 
n<-1000 
ra<-rep(0,n) 


rb<-rep(0,n) 


V VvV VvV Vv YYV 


for(j in 1:n)t 
ra[j]<-sample(alphax,1,replace=T ,prob=wW) 
postb<-bioassay.post (ra[j] ,betay) 
wb<-postb/sum(postb) 
rb[j]<-sample(betay,1,replace=T ,prob=w) 

} 

plot(ra, rb, xlim=c(-5,10), ylim=c(-10,40), 

xlab=quote(alpha), ylab=quote(beta)) 


Vv 


存活 率 为 50% 的 剂量 的 估计 

















在 此 类 生物 鉴定 试验 中 ,人 们 通常 对 导致 50% 存 活 率 的 剂量 大 小 感 兴趣 ， 
记 为 LD50. 在 本 例 的 logit 模 型 中 , 由 








Eb (¥) = logit™ (a++ Bri) = 0.5 


Ti 











解 出 x; 即 得 LD50 = 一 a/B. 利用 上 面 抽 取 的 a, 6 的 1000 个 后 验 样本 , 可 以 得 
到 LD50 的 (离散 ) 后 验 分 布 , 其 频率 直方 图 图 ( 见 11.7) 可 由 下 面 的 及 程序 得 到 : 



































> 1d50 <- -ra/rb 
> hist(ld50,freq=FALSE,breaks=1000,xlim=c(-0.8,0.5), 
axes = TRUE, xlab="LD50",main="") 











Q, B 及 LD50 的 后 验 分 位 数 如 表 11.2， 由 这 些 结果 可 以 得 到 动物 的 死亡 率 与 接 
受 的 剂量 成 正比 (因为 8 > 0), 而 有 50% 受 试 动物 死亡 的 剂量 为 exp( 一 0.11) = 
0.90 (g/m1). 


























811.5 ”分 层 贝 叶 斯 统计 分 析 


许多 实际 问题 都 会 涉及 多 个 参数 ,而 且 这 些 参数 会 呈现 出 某 种 相关 性 . 统 
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I (aja, 6 基于 后 验 密度 的 等 高 图 (b) 从 后 验 密度 中 重新 抽取 1000 对 样本 
的 散 点 图 . 





计 上 可 以 用 一 个 联合 概率 分 布 来 刻 划 参 数 之 间 的 相依 性 .例如 , 在 一 个 心脏 
病 治疗 的 研究 中 , 考查 J 个 医院 使 用 某 种 药物 后 的 存活 率 9;,j = 1,2,...,J 可 
以 认为 由 数据 得 到 的 这 些 9; 的 估计 应 该 是 相互 联系 的 ， 在 贝 叶 斯 统计 分 析 
这 种 参数 间 的 相关 性 可 以 通过 假设 0;, j = 1,2,.…., .为 来 自 一 个 共同 的 先 验 分 
布 ( 称 为 参数 的 总 体 分 布 ) 的 样本 来 实现 , 即 9 并 p(9|9), 其 中 gp 为 未 知 超 参数 
其 本 身 有 先 验 分 布 p(6). 这 就 是 分 层 贝 叶 斯 建 模 的 思想 . 

这 一 节 主要 以 数据 yj|9; 为 正 态 分 布 N(0;,03), 其 中 方差 3 已 知 , 均值 参数 
有 正 态 共 箔 先 验 bj|% ~ N(j,7?) 为 例 介绍 分 层 模型 的 贝 叶 斯 推断 及 其 应 用 . 
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表 11.2 a, 6,LD50 的 后 验 分 位 数 






































50% 75% 97.5% 
a 1.3 2.0 4 .1 
pb 11.0 15.2 26.0 
LD50 -0.11 -0.06 0,12 
2 
















































































































































































0.0 0.2 0.4 


LD50 














图 11.7 LD50 的 后 验 频率 直方 图 . 





11.5.1 ”分 层 模型 的 建立 及 其 贝 叶 斯 推断 


模型 的 建立 


考虑 J 组 试验 , | 








试验 j 得 到 数据 (yj1,.…. ,yjn,), 并 综合 为 一 个 统计 量 y;( 通 











常 为 充分 统计 






























































)， 试验 7 所 涉及 的 参数 (向 量 ) 为 9;. 分 层 贝 叶 斯 模型 由 三 部 分 
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组 成 : 


1) 数据 的 分 布 ( 似 然 函 数 ): 
yil0; ~ p(y|0;) 


令 y EE (VY1, Y2,. … , YJ) 0 二 (01, 01,. “ , YJ) 从 而 得 到 


J 
多 ~ [ {2Cyl0;): (11-5.1) 
d= 














2) 参数 9; 的 先 验 分 布 : 9;,7 = 1,2,...,J 为 来 自 同 一 共 分 布 p(9|9) 的 样本 ， 
因此 





由 
bl% ~ [ [2(0;10). (11-5.2) 
j=1 
3) 超 参 数 的 先 验 分 布 : 
$ ~ p(9). (11-5.3) 











实际 上 这 是 一 个 双 层 贝 叶 斯 模型 , 我 们 还 可 引入 更 多 层次 的 贝 叶 斯 模型 . 它 也 
可 视 为 一 个 多 参数 的 贝 叶 斯 模型 , 但 与 我 们 前 面 讨论 的 多 参数 模型 不 同 的 是 : 























1) 在 多 参数 的 贝 叶 斯 模型 中 超 参数 % 是 通过 历史 数据 估计 (这 时 称 为 经 验 贝 
叶 斯 分 析 ) 或 通过 专家 经 验 给 定 , 而 在 多 层 贝 叶 斯 模型 中 (0, 9) 都 是 模型 的 
参数 , 尽管 0 为 主要 关心 的 参数 ; 

2) 在 多 参数 的 贝 叶 斯 模型 中 参数 01, 9,... ,67 通常 假设 为 独立 的 , 没有 相关 
的 结构 , 而 在 多 层 贝 叶 斯 模型 中 01, 02,... ,907 之 间 存 在 着 一 种 相关 性 , 这 

种 相关 性 是 通过 其 先 验 分 布 来 刻 划 的 













































































1(11-5.1)、(11-5.2) 和 (11-5.3) 得 (9, $) 的 联合 后 验 密度 

















p(0,9|ly) cc POP 9) 
co p($)p(0|9)p(y|0). (11-5.4) 

















上 式 第 二 行 是 由 于 y 仪 依赖 于 0, 或 者 说 6 仅 通过 0 影响 y. 





0 的 统计 推断 

















由 多 参数 贝 叶 斯 模型 , 我 们 主要 关心 参数 9 的 统计 推断 和 某 一 试验 7 下 y 的 


























11.5 分 层 贝 叶 斯 统计 分 析 . 399. 
预测 . 由 (11-5.4), 6 的 后 验 分 布 为 
p(y)o 由 大 volyjas 665 司 























其 中 p(916,y) 对 于 共 轩 先 验 分 布 容易 得 到 ， 
职 , 而 由 条 件 概率 密度 计 公式 , p(g| 作 可 表示 为 





























p(9ly) = 7(0 


p(9 


为 给 定 % 下 gb 的 共 斩 后 验 分 布 的 乘 


, Bly) 


pg (11-5.6) 


此 式 可 如 开 积分 计算 : p($|y) = / p(9,9|y)ap， 因此 关于 9 的 推断 (抽样 ) 可 按 下 





面 的 二 步 进 行 : 














第 1 步 : 由 后 验 边际 分 布 p(8|y) 推 断 ( 抽 取 )9; 








第 2 步 : 视 $ 为 已 知 , 由 条 件 后 验 分 布 p(9|9,y) 推 断 ( 抽 取 )6. 


预测 














通常 人 们 可 能 3 


心 两 类 














类 常见 的 后 验 预 测 ; 其 二 是 基于 新 的 试验 ， 





种 预测 . 


后 验 预 测 , 其 一 是 基于 现 有 的 数据 (试验 ), 这 是 一 








当 试验 环境 ( 协 变量 ) 不 同时 考试 这 


。 基 于 现 有 试验 的 预测 : 现 有 试验 的 效应 为 9 = (0.,….……07), 这 时 抽样 步骤 


为 : 


1) 从 p(6| 胃 ) 中 抽取 6; 
2) 对 于 给 定 7 e (1,2,.….., 力 ,从 p(0;|9, 臣 中 抽取 0;; 
3) 从 p(y|9;) 中 抽取 








。 基 于 新 试验 的 预测 : 这 时 需要 先 获 得 试验 的 效应 6, 抽样 步骤 变 为 


1) 从 p(9|y) 中 抽取 9; 
2) 从 参数 (效应 ) 的 总 体 分 布 p(0|9) 








3) 从 p(y|O)! 








和 











] 取 了 





抽取 新 的 参数 6 = (6 ，... ,607); 


. 400 . 第 十 一 章 贝 叶 斯 统计 分 析 





11.5.2 ”N-N 模 型 与 应 用 


问题 的 叙述 








数据 与 参数 都 服从 正 态 分 布 的 多 层 贝 叶 斯 模型 称 为 N-N 模 型 . 我 们 先 从 经 
典 的 统计 分 析 中 引出 这 个 问题 


考查 J 个 试验 , 测 得 数据 为 yij, 设 











yij No = 1,2,...,n(7 = 1,2...,) (11-5.7) 

















其 中 方差 ?已 知 . 则 样本 均值 5; = 启 >;219ij 为 0; 的 充分 统计 量 , 有 分 布 


Yi;|10; ~ Na 07)， (11-5.8) 


a 


其 中 o 


ns 


2 
25 
现在 我 们 考查 某 个 特定 9; 的 估计 . 我 们 可 想到 两 种 估计 : 























1) 使 用 单个 yj 进行 估计 : 6) = yy 这 时 当 nj 很 小 时 显然 是 不 合理 的 , 因为 它 
的 精度 会 很 低 . 

2) 使 用 合并 数据 的 估计 , 即将 J 个 试验 的 条 件 和 对 像 没有 多 少 差异 , 即 认 
为 feness0i 出 












































到 底 选 用 哪 一 个 ， 可 通过 .7 个 组 (试验 ) 下 bj 7 = 1,2,...,J 的 差异 的 方差 分 
析 ( 环 检验) 进行 et SR i ep 为 方便 起 见 , 在 此 仪 
考虑 J 组 试验 是 均衡 的 , 即 mj = ma7 = 0?,7 ,J 则 理论 上 , 也 检 验 的 
方差 分 析 表 可 表示 为 


由 此 我 们 得 出 : 






































1) 如 果 组 间 平 方 和 与 组 内 平方 和 之 比 显著 大 于 1， 就 认为 01,7 = 
1,2,...,J 之 间 有 显著 差异 , 这 时 就 取 0; = yj; 

2) 如 果 组 间 平 方 和 与 组 内 平方 和 之 比 并 不 显示 大 于 1， 就 认为 0),7 = 
1,2,...,J 之 间 没 有 有 显著 差异 , 即 F 检 验 无 法 拒绝 Ho : 7 = 0, 这 时 
就 取 6; = 
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表 11.3 检验 理论 上 的 方差 分 析 表 
自由 度 S55 MS  E(MSlo?,7) 
组 间 J-1 5.),(7; 9.) 芝 PT 十 0 
角 内 JaD DP) 1 
总 和 nl Di To 








实际 上 , 我 们 还 可 提出 第 三 种 估计 











0; = NYj + (1 — MN)y., 
































定 的 联系 或 存在 一 定 的 相依 结构 . 与 方差 分 析 表 比较 发 现 


内 中 0 < 和 jy < 1. 它 是 前 二 种 估计 的 加 权 平 均 , 它 可 视 为 7 个 组 平均 之 间 有 一 




















， 入; 二 1 对 应 于 7? 和 





大 , 在 此 视 为 w, 和 A; = 0 对 应 于 7? = 0, 而 0 < 和 入 1 应 对 应 一 个 较 适中 的 72. 




















才 























1 此 进一步 假设 9;,7 = 1,2,...,J 为 来 自 正 态 分 布 N(y， 




















采用 分 层 贝 叶 斯 模型 恰 能 获得 这 种 折衷 的 估计 , 且 能 包含 前 二 种 特殊 的 情形 ， 











72) 的 样本 ， 而 超 参 








数 (17) 服从 先 验 p(1,7T>). 0;,7 = 1,2,.….,J 之 间 的 相依 性 就 是 通过 引入 这 个 





共同 的 先 验 分 布 来 实现 的 . 


























为 方便 起 见 令 y; = yj;, 则 N 一 N 的 数据 与 参数 分 别 为 y = (yi, yo2,….,y7)， 








0 = (01,02,...,97). 这 样 N-N 分 层 贝 叶 斯 模型 可 表示 为 





J 
p(y|0) [I[ N(wl0;, 0?) 
j=1 


J 
pou,7) = [Nln,7’) 
= 


(1,7) ~ PT) 


(11-5.9) 


(11-5.10) 


(11-5.11) 


我 们 仅 考 虑 p(nj7T)xl，p(7)xl， 所 以 p(u,7) = p(n|7)p(7)xl. 由 此 得 
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到 (9, ,7) 的 后 验 分 布 

















下 面 我 们 列 出 一 些 结果 


1) 给 定 /my 下 , 9 的 分 布 














| 
El 





和 


2) 给 定 y 下 , 凡 7 的 分 布 
Sy 
plp7Tly) < [Nyilp,o? + 7’) 


j=1 
J 


oc [I[ + 72)-!/2exp (- 泡 = 


2(03 十 72) 


j=1 


3) 给 定 7,y 下 , /的 分 布 
HIT,y Ss N(h, VW), 














其 
J 
a 人 5 Yi 1 
LU dS NM 
2 -1 rh a 
4) 给 定 y 下 , 7 的 分 布 
p(1, 7|Y) 
PTIY) = 
CI D(UUT y) 


J 入 
ll N (vjlh, oF + 7?) 
CO， VW) 





(11-5.12) 


(11-5.13) 


) (11-5.14) 


(11-5.15) 
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浊 en 

1/2 2 2\—1/2 加 (y;— A) 1 
x Vi ll 十 72) oo ( cz (11-5.16) 
了 二 








可 见 , 9; 的 估计 恰 为 单个 数据 的 估计 yj 与 4 的 加 权 平 均 , 而 4 的 估计 为 各 0;,j = 
.JJ 的 "合并 估计 ” 若 r = 0, 0; 的 估计 即 为 基于 单个 数据 的 估计 , 而 
当 7 = co 时 , 0; 的 估计 即 为 py 的 估计 . 


由 此 可 得 N-N 模 型 的 抽样 方法 : 









































1) 按 格子 点 离散 化 方法 由 公式 (11-5.16) 从 p(T|y) 抽 取 7; 
2) 按 正 态 分 布 由 公式 (11-5.15) 从 p(x|7,2) 抽 取 j; 
3) 按 独 立正 态 性 由 公式 (11-5.13) 从 N(0;, 态 ) 抽 取 0;,j = 1,2,...,J. 








案例 分 析 


例 11.5.1 ”SAT 考试 上 则 在 真实 地 考察 学 生 经 过 多 年 教育 之 后 所 获取 的 
知识 与 能 力 , 同时 极力 避免 因 短期 突击 而 带 来 的 成 绩 提 高 . 为 研究 短期 考 前 
培训 是 否 能 提高 SAT( 学 校 智能 测试 ) 的 成 绩 , 现 对 8 所 进行 过 此 类 培训 的 高 中 
进行 独立 随机 试验 , 经 过 协 方差 调整 (以 消除 其 它 因 素 的 影响 ) 后 得 到 的 数据 如 
表 11.4 所 示 . 由 于 每 个 学 校 参加 测试 的 学 生 数 都 至 少 有 32 人 ,因此 可 以 认为 yj 
具有 正 态 近似 , 并 用 样本 方差 作为 go 的 值 . 现 要 研究 8 所 学 校 短期 考 前 培训 的 真 


实效 果 , 并 进行 比较 . 
解 我 们 用 N-N 模 型 逐步 展开 讨论 : 
























































































































































1) 二 个 极端 的 估计 : 考虑 学 校 A 的 培训 效应 , 若 认 为 8 个 学 校 没 有 关系 , 则 用 
单个 的 数据 估计 , 即 四 = 28( 标 准 差 为 15); 若 认 为 8 个 学 校 的 培训 效应 没 
有 差异 , 则 使 用 合并 估计 (pooled estimate): 




















人 a a ys 
人 二 及 全 - = 7.9( 标 惟 天 为 4.2). 
hb 3 (1/03) 7.9( 标 准 差 为 =4.2) 








2) 初步 分 析 : 一 些 学 校 的 培训 呈现 了 一 定 的 效果 (18 到 28 之 间 ), 一 些 学 校 则 
效果 较 小 , 还 有 的 有 相反 的 效果 . 而 且 较 大 的 标准 误差 意味 着 各 平均 效 
应 9; 的 置信 区 间 会 有 较 大 的 重 着 ， 即 统 计 上 很 难 区 分 它们 . 然而 , 经 典 的 
统计 分 析 却 拒绝 各 0;,j = 1,2,.…. ,J 相等 的 假设 . 因此 ， 上 面 的 二 个 估计 




































































































































































个 折衷 的 估计 . 
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表 11.4” SAT 成 绩 
学 校 培训 效果 浓 训 效果 估 
估计 值 计 值 标准 误 
A 28 15 
B 8 10 
C -3 16 
D 7 11 
E | 9 
F 1 11 
G 18 10 
H 12 18 
都 是 不 合理 的 . 下 面 用 N-N 多 层 贝 叶 斯 模型 给 出 一 个 介 于 二 者 之 间 的 一 








3) N-N 多 层 贝 叶 斯 分 析 : 套用 N-N 模 型 对 此 问题 进行 分 析 . 现在 的 模型 为 


yj|0;,07 ~ N(p3,07) 














其 中 9;(7 = 1,2,.… ,8) 即 为 8 所 学 校 各 自 短 期 培训 的 "真实 ?效果 , 上 





0j|1T 人 N(n,7”), 











其 中 未 知 超 参数 /与 r 相 互 独立 , 并 





























段 设 p(1, 7)ccl， 

















。 7 的 后 验 分 布 : 利用 网 格 法 画 出 + 的 边际 后 验 密度 p(7|y) 的 函数 , R 程 





序 如 下 





y<-0(28, 8, -3; 7, -1, 1; 18 ,12) 
sd<-c(15, 10, 16, 11, 9, 11, 10, 18) 


tau<-c(0:3000)/100 


> 
> 
> v<-sd*sd 
> 
> tausq<-tau*tau 
> 


ptau.y<-rep(0,3001) 
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> vmu<-rep(0,3001) 
> muhat<-rep(0,3001) 
> for(i in (1:3001)){ 
vmu[i]<-1/sum(1/(tausq[i]+v)) 
muhat [i]<-vmuli]j*sum(y/ (tausq[li]+ Vv)) 
ptau.y[i]<-sqrt (vmu[i]*prod(1/(tausq[i]+v))) 
*prod(exp(-0.5*(y-muhat [i]) 
*(y-muhat [i])/ (tausq[i]+v))) 
} 
> plot(tau,ptau.y,type="1",yaxt="n",xlab=quote (tau)) 














得 到 图 11.8. 由 图 11.8 可 知 , r 值 趋 近 于 0 时 最 为 合理 , 且 有 





























图 11.8 ”边际 后 验 密度 函数 p(7|y). 











Pr(7 > 10) < 0.5, Pr(7 > 25) ~ 0. 
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Nl 











。 给 定 7 下 各 效应 的 平均 水 平 与 波动 : 为 进一步 了 解 r 的 性 质 , 现 考 虑 
在 7 给 定 下 的 后 验 均值 B(0;|7,y) 及 其 相应 标准 差 Sd(9;|7,y). 经 计算 






























































得 到 
声 妇 十 南 放 
For = 二-  , 
(0;|7, y;) 二 
工 2 
7T2 
Sd(0;|7, y;) = 1 /| 1 | 于 TY 
0 | 72 o7 | 73 
中 
J 
2 747 J 1 
~、 j= 1 
化 2 ,Vy i 
3 5 i 





























民 据 上 述 公 式 对 两 者 作 图 比较 . 及 程序 如 下 ( 接 上 段 程序 ): 














> eth.tauy<-matrix(rep(0,24008) ,8,3001) 
> sdth.tauy<-matrix(rep(0,24008) ,8,3001) 
> for (j in (1:8)){ 
> for (i in (1:3001))+{ 
eth.tauy[j,i]j<-(y[j]/vLljj+muhat [i]/tausq[Li]) 
/(1/v[j]+1i/tausq[i]) 
sdth.tauy[j,i]<-sgqrt(((1/tausq[il])/(1i/v[Lj]+1i/tausq[i])) 
*((1/tausq[i])/(1/v[j]+ 1/tausq[i])) 
*vmu[i]+1/(1/v[j]+1/tausq[i])) 
} 
} 


> par(mfrow=c(1 ,2)) 

> taux<-matrix(rep(tau,8) ,8,byrow=T) 

> matplot(t(taux),t(eth.tauy), ylim=(c(-5,30)), 
type="1", xlab="tau",lty = 1:8, lwd = 1,col=1, 
ylab="Estimate Treatment Effects", 
main="Conditional posterior mean'") 

> School<-c("A","B","C","D", "EE", "F","G", "H") 

> text (x=rep(20,8) ,y=t (eth.tauy) [2400 ,] ,School) 

> matplot(t(taux),t(sdth.tauy), ylim=(c(0,20)), 
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type="1", xlab="tau",lty = 1:8, lwd = 1, col=1, 
ylab="Posterior Standard Deviations", 
main="Conditional posterior SD") 

> text (x=rep(20,8) ,y=t(sdth.tauy) [2400 ,] ,School1) 























Conditional posterior mean Conditional posterior SD 
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图 11.9 ”条件 后 验 均值 E(9;|7,y;) 与 标准 差 Sa(0;|7,y;).… 























运行 得 到 图 11.9. 图 11.9 表 明 , 当 7 取 最 合理 的 值 ( 即 为 0) 时 , 8 个 不 同 
学 校 的 效应 值 9, 的 均值 与 标准 差 都 几乎 相同 , 而 随 着 7 不 断 变 大 , 它 
们 之 间 的 差异 也 变 得 明显 起 来 , 且 与 各 自 最 初 的 试验 数据 相 接近 . 因 
此 , 仅 根据 7 无 法 得 到 满意 的 结果 . 
e 后 验 抽样 : 下 面 的 及 矩阵 中 z 放 置 抽样 的 结果 , 其 中 第 1 列 z|,1] 放 
置 p(7|y) 的 样本 ,第 1 列 z[,2] 放 置 p(u|7,y) 的 样本 , 第 3-10 列 z[, 四 ,7 = 
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3,4...,10 放 置 p(0;|7, ,Vy),7 = 1,2,...,8 的 样本 . 














m<-200 
ptau.y<-ptau.y/ (sum(ptau.y)) 
tausamp<-sample (tau,m,replace=T ,prob=ptau.y) 


tausamp<-sort (tausamp) 


x<-matrix(rnorm(m*10,0,1),m,10) 
x[,1]<-tausamp 
x[,2]<-muhat [tauid] + sqrt(vmu[tauid])*x[,2] 
for(j in (1:8)) 荆 
thmean<-(y[Lj]*x[,1]*x[,1]+v[j]*x[,2])/(v[j]j+x[,1]*x[,1]) 
thsd<-sqrt(v[j]*x[,1]*x[,1]/(v[j]j+x[,1]*x[,1])) 
x[,j+2]<-thmean + thsd*x[,j+2] 
} 
> par(mfrow=c(1 ,2)) 
> hist(x[,2] ,breaks=c(-40:50) ,xlab=quote (mu) ， 


> 
> 
> 
> 
> tauid<-tausamp*100 + 1 
> 
> 
> 
> 


yaxt="n" ,main="") 
> hist(x[,3] ,breaks=c(-20:60) ,xlab="Effect in School A", 
yaxt="n" ,main=" ") 
画 出 了 /与 外 的 后 验 密 度 的 直方 网 , 见 图 11.10. 
。 后 验 推断 : 对 于 每 个 0; 的 200 个 样本 运用 函数 sort( ) 进 行 排序 后 , 可 
以 得 到 相应 的 五 个 分 位 数 . 由 表 11.5 不 难 发 现 , 根据 200 个 样本 , 8 个 
学 校 实际 培训 效果 的 95% 置 信 区 间 有 很 高 的 重合 性 , 且 其 均值 都 处 
于 5 全 10 的 范围 之 内 . 




















































































































811.6 ” 贝 叶 斯 线性 回归 分 析 


11.6.1 ”模型 的 表示 




















本 节 主 要 就 正 态 线 性 回归 模型 进行 简单 的 讨论 : 设 y 为 响应 变量 ， 
ZT1;T2).……. ,Xk 为 k 个 预测 变量 ，B1, Bo,...,Bi 为 对 应 的 回归 系数 .对 n 个 个 体 
进行 观察 ， 第 i 个 响应 变量 与 预测 变量 的 值 分 别 为 y; 和 zx; 二 (Til, Ti2, ,Tik), 
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L Effect in School A 





图 11.10 分 别 从 p(j|7, 角 及 p(91|4,7,) 中 抽取 200 个 样本 的 频数 直方 图 . 





《二 1 2 记 y = (2 Y2,..., Yn),, B= (B1, Bo2,..., Br)’, 


YI1I1 X12 |... Yik 
TV21 X22 ... V2k 

党 

X= (21,72,...,Tn) = 
ml Xn2 ‘Vnk 











这 时 正 态 回 归 模 型 可 表示 为 


y|B, 02, 叉 ~ nn(XO,a2T)， 








或 表示 为 
yi = Piviat bari tt... rTik tt €i,1 = 1,2,...,n, 
€. “= (ey cad En) 2 N(0,07). 








(11-6.1) 


(11-6.2) 
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表 11.5 0; 的 后 验 分 位 数 









































学 校 2.5% 25% median 75% 97.5% 
A -2. 6 9 15 32 
B 直 4 8 11 A 
C -9 2 6 10 19 
D -5 4 11 20 
E -9 1 5 8 15 
F -11 2 6 10 18 
G -1 6 9 13 24 
H 池 4 8 12 30 
其 中 y 称 为 观测 向 量 , 和 称 为 设计 阵 , 0 = (8,o?) 均 为 未 知 参 数 向 量 , I 为 单位 矩 





阵 , Ni(j, 4) 为 n 元 正 态 分 布 , /为 其 均值 向 量 , 4 为 其 协 方差 矩阵 . 








11.6.2 ”后 验 分 布 


为 了 进行 贝 叶 斯 分 析 , 还 需要 给 出 9 = (8,o?) 的 先 验 分 布 , 在 此 我 们 仅 对 
未 知 参数 进行 无 信息 先 验 假设 , 即 


D(B,a2)oc(a2) 一 1 (11-6.3) 


























基于 多 元 正 态 分 布 的 性 质 , 此 模型 的 贝 叶 斯 推断 可 以 借鉴 多 参数 模型 的 情况 . 
现 将 后 验 分 布 表示 为 

















p(B,0°|y) = p(o IW)p(Blo, Y). (11-6.4) 

其 中 
有 lc2y ~ Na,(B,Vao’), (11-6.5) 
oly ~ IGa((n—E)/2,S/2), (11-6.6) 


6 = (XX)-1X'Y, Va = (XX)-!, 5 = (y—XB)T(y— XP). 不 难 发 现 , 6 正 是 B 的 
最 小 二 乘 估计 . 
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: 411 ， 









































能 得 到 未 知 参数 以 及 其 函数 的 后 验 模拟 值 . 这 可 

















因此 按 随 机 模拟 的 方法 , 先 由 p(o?|Y) 抽 取 o?, 再 从 p(Blo?,2) 中 抽取 6, 便 





























民 据 多 元 正 态 分 布 和 逆 伽 玛 分 











布 自行 编程 获得 (6,o?) 的 后 验 样本 . 但 是 在 无 信息 先 验 假设 下 我 们 也 可 直接 
利用 及 中 的 LearnBayes 程 序 包 (可 在 及 社区 下 载 ) 内 的 函数 函数 blinreg( ) 完 
































成 (8, 7) 的 后 验 抽样 . 








11.6.3 ”回归 拟 合 

















有 了 (6B,o”) 的 后 验 样本 , 就 可 得 到 6 的 贝 叶 斯 估计 (如 后 验 样本 众 数 或 后 验 











样本 均值 ), 记 为 6, 由 此 可 得 给 定 预 测 变量 z* 处 响应 变量 y 的 值 














少 = 2 0 











如 果 B* 为 6 的 后 验 抽样 , 则 z*B* 就 是 z*B 的 边际 后 验 的 抽样 . LearnBayes 程 序 
包 中 的 函数 blinregexpected( ) 可 以 用 于 获得 这 样 的 样本 . 








11.6.4 ”后 验 预测 























多 参数 贝 叶 斯 模型 知 , 给 定 预测 变量 z* 处 , y 的 后 验 预测 分 布 为 


en / pO oto vlad (11-6.7) 





履 


























为 Zz*B. 





下 面 通过 一 个 实例 来 说 明 这 些 函 数 的 使 用 . 


例 11.6.1 (Ramsey and Schafer, 


的 birdextinct 数 据 集 为 过 去 几 十 年 中 在 英 
的 四 类 数据 : 





dy 





。 在 岛 上 的 平均 灭绝 时 间 (TIME); 








。 平均 筑 集 数 (NESTING); 











国 周 


1997)LearnBayes 程 序 包 : 





因此 y 的 后 验 预测 样本 可 在 上 面 获得 的 (8,c 沁 的 后 验 样 本 的 基础 上 , 再 从 正 态 














分 布 N(z*PB,o?) 抽 取 j 得 到 . LearnBayes 程 序 包 中 的 函数 blinregpred( ) 可 
以 用 于 获得 这 样 的 后 验 预测 样本 . 显然 , z* 处 , y 的 回归 拟 合 均值 与 预测 均值 都 



























































围 的 16 个 岛屿 上 收集 的 62 种 鸟 




















。 种 群 规模 (SIZE), 分 为 “大 ”( 用 1 表示 ) 与 “小 ”( 用 0 表示 ) 两 类 ; 
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e。 栖 上 县 状态 (STATUS), 分 为 “迁徙 ”( 用 1 表示 ) 与 “久居 ”( 用 0 表示 ) 两 类 . 
I 命令 














> data(birdextinct) 
> attach(birdextinct) 


> birdextict 
得 到 数据 ( 仅 前 后 一 部 分 ) 


Species time nesting size status 


1 Sparrowhawk 3.030 1.000 0 1 
2 Buzzard 5.464 2.000 0 1 
3 Kestrel 4.098 1.210 0 1 
4 Peregrine 1.681 1.125 0 1 
60 Starling 41.667 11.620 1 1 
61 Pied_flycatcher 1.000 1.000 1 0 
62 Siskin 1.000 1.000 1 1 








研究 目的 是 找 出 该 地 区 鸟 类 的 灭 种 时 间 与 其 余 三 个 量 之 间 的 关系 . 
解 




















1) 预测 变量 的 显著 性 : 按 习 惯 , 用 y 表 示 响 应 变量 TIME, zi 表示 预测 变 
量 NESTING, zx。 表示 预测 变量 SIZE, zs 表示 预测 变量 STATUS. 由 于 前 
期 分 析 中 发 现 变 量 y 严 重 右 偏 ， 因 此 对 其 进行 对 数 处 理 . 最 终 将 此 问题 归 
为 线形 回归 模型 





















































log(yi) = fot Pizit Pariz + Paris + €i, 
& ~ N(0,0?) 

















首先 用 函数 lm( ) 进 行 最 小 二 乘 拟 合 . 及 命令 为 




















> logtime=log (time) 
> fit=lm(logtime ~ nesting+sizetstatus, 
data=birdextinct, x=TRUE, y=TRUE) 


> summary (fit) 
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其 中 x=TRUE，y=TRUE 是 为 了 让 设计 矩阵 和 响应 变量 成 为 fit 这 个 结构 的 


























部 分 , 便于 在 后 面 的 函 数 中 引用 . 输出 的 主要 结果 为 








Coefficients : 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 0.43087 0.20706 2.081 0.041870 * 


nesting 0.26501 0.03679 7.203 1.33e-09 *** 
size -0.65220 0.16667 -3.913 0.000242 *** 
status 0.50417 0.18263 2.761 0.007712 ** 


Signif. codes: 0 ‘***” 0.001 ‘** 0.01 '* 0.05°.” 0.1°°” 1 


Residual standard error: 0.6524 on 58 degrees of freedom 
Multiple R-Squared: 0.5982, Adjusted R-squared: 0.5775 
F-statistic: 28.79 on 3 and 58 DF, p-value: 1.577e-11 


结论 : 回归 方程 为 





y = 0.43087 十 0.26507z1 一 0.65227s 十 0.5042x3. 








且 筑 梨 数 NESTING(zi) 是 高 度 显 著 的 ,表明 筑 曲 数 越 多 ， 种 类 灭绝 的 时 














间 越 长 ; 种 群 规 模 SIZE(zz) 和 栖息 状态 STATUS(zs) 也 显著 , 但 稍 差 一 点 ， 





二 























明 大 的 鸟 类 其 灭绝 的 时 间 短 ; 而 迁徙 的 鸟 类 其 灭绝 的 时 间 长 . 








产生 0 = (8,o) 的 后 验 样本 : 命令 


> theta.sample <- blinreg(fit$y,fit$x,5000) 


得 到 6, o 的 5000 个 后 验 样本 . 


说 明 : 函数 blinreg(y X,m) 所 需 输 入 的 变量 为 : 观测 问 量 y， 结 构 久 
阵 和 以 及 样 此 函数 的 返回 值 分 为 两 部 分 : 第 一 部 分 为 6 的 m x 9 
阵 样本 ， 其 每 一 行 分 别 代 表 该 次 抽样 的 B; 值 (i = 0,1,2,...,k), 第 二 部 
分 则 为 m 个 ee 且 这 两 部 分 的 值 被 赋予 变量 名 beta 和 sigma. 在 
此 m = 5000,k = 3. 








次 省 









































LA 
命令 


> par(mfrow=c(2,2)) 





Frequency 


Frequency 


xlab=expression(sigma)) 








得 到 61， bo, Bs 和 o 的 直方 图 

































































( 见 图 11.11). 
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> hist(theta.sample$beta[l,2], main="NESTING", 
xlab=expression(betal1])) 

> hist(theta.sample$betal[l,3], main="SIZE", 
xlab=expression(betal[2])) 

> hist(theta.sample$beta[l,4], main="STATUS", 
xlab=expression(betal3])) 

> hist(theta.sample$sigma, main="ERROR SD", 
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图 11.11 61, Bo,B3 和 oa 的 后 验 频 数 直 方 图 . 
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3) 对 参数 的 概括 : 
































民 据 需要 我 们 可 以 用 后 验 样 本 对 未 知 参 数 作出 
推断 ， 例 如 使 用 函数 apply( ) 及 quantile( ) 计算 8 与 o 的 后 验 样本 
的 5 史 、50%、95 吧 分 位 数 . 及 命令 与 结果 如 下 

















> apply(theta.sample$beta,2, quantile, c(.05,.5,.95)) 


X(Intercept) Xnesting Xsize Xstatus 
5% 0.0885280 0.2049362 -0.9288856 0.1987654 
50% 0.4275055 0.2642518 -0.6503313 0.4998742 


95% 0.77893 


> quantile(theta 
5% 


98 0.3247912 -0.3739433 0.8085352 


.sample$sigma,c(.05,.5,.95)) 
50% 95%, 


0.5676048 0.6545287 0.7729843 


若 用 summery 命 令 观 察 最 小 二 乘 估计 的 结果 不 难 发 现 ,各 未 知 参 数 的 后 
































验 中 位 数 与 该 结果 基 


县 先 验 假设 . 




















:本 一 致 , 其 原因 在 于 , 本 例 的 贝 叶 斯 推 类 采用 了 无 信 














另外 我 们 还 可 得 到 已 知 预测 变量 zi = 1,2,...,k( 本 例 k = 3) 时 回归 均值 与 预 














测 值 , 这 部 分 作为 练习 (习题 











11.8) 请 读者 完成 . 加 
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第 十 一 章 习题 








11.1 ， 试 证 明 : 对 于 二 项 分 布 Bin(m 分 中 的 比率 0, 基于 杰 弗 莱 原 则 的 先 验 分 
布 为 贝塔 分 布 Beta(1/2,1/2). 

11.2 ”考虑 女性 的 出 生 比 率 0, 设 0 仅 有 二 种 可 能 : 0 = 0.5 与 9 = 0.485， 且 6 的 
先 验 分 布 是 等 可 能 的 . 令 y 为 n 个 出 生 的 新 生 婴 儿 中 女性 的 数目 , 试 分 别 在 1) 
n= 二 100,y = 48, 2) n = 1000,y = 480 两 种 场合 , 分 别 求 9 的 后 验 分 布 、 后 验 均 
值 ( 贝 叶 斯 估计 ) 和 后 验方 差 . 并 对 两 者 的 差异 进行 说 明 . 

11.3 ” 设 y|0 ~ Bin(n,0), 9 先 信息 先 验 分 布 Beta(1,1), 试 根 据 已 有 的 试验 结 
果 n,y 预 测 下 一 次 试验 成 功 (j = 1) 与 失败 (j = 0) 的 概率 . 

11.4 ” 设 y|9 ~ Bin(n,0), 9 先 信 息 先 验 分 布 Beta(1,1), 考查 4 种 观测 数据 : 
n= 5,y=3\ n= 20,y= 12, n= 100,y= 60、 n= 1000,» = 600, 




























































































1) 求 4 种 场合 参数 0 的 经 典 极 大 似 然 估 计 ; 




















2) 用 RR 编程 计算 4 种 场合 参数 9 的 贝 叶 斯 估计 和 精度 ,并 画图 予以 说 明 . 
































11.5 ”在 例 11.3.4 中 ， 若 取 90 的 后 验 分 布 为 共 思 分 布 Beta(50,25), 求 9、y = 
蕊 2 和 1ogit(6) = log(9/(1 一 09)) 后 验 均 值 与 95% 后 验 置 信 区 间 . 
11.6 ”给 定 如 下 的 贝 叶 斯 模型 : 对 于 7 = 1,2 
































Vols ,jn [Hj 0 N(13,07), 
p(13,03) CC 5 
且 (Aa; o3) 与 (Ha 32) 独立. 证 明 (si/s2)/(ot/03) 的 后 验 分 布 为 分布: 


2/.2 
51/52 Dj, 52 
2 /2| 47)°) 
01/03 





,j=1,2~ Fni—1,n2— 1). 














11.7 ” 设 y = ( 角 ,… ,yn) 六 N(10?), 其 中 1 和 a? 均 未 知 , 其 先 验 取 为 无 信 
县 先 验 p(n,0?)oc(o?)-!. 





1) 从 正 态 分 布 N(100,1) 中 产生 1000 个 随机 数 ; 





2) 求 参数 /和 oo 的 贝 叶 斯 估计 (后 验 众 数 ); 





3) 作出 后 验 密度 函数 的 等 高 线 图 ; 
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4) 用 例 (11.4.1) 的 算法 产生 (1,o?) 的 1000 个 后 验 样本 ,并 作出 散 点 图 ; 


























LU 


5) 用 后 验 密度 函数 p(1,o?|y) 的 格子 点 离散 近似 方法 产生 (4,o?) 的 1000 个 后 
验 样本 ,并 作出 散 点 图 , 并 与 上 一 散 点 图 并 列 放 置 在 一 张 图 上 进行 比较 . 


11.8 ”基于 例 11.6.1, 取 如 下 4 组 预测 变量 ( 协 变量 ) 

































































表 11.6 协 变量 





串 




















编号 21 22 03 
人 4 0 0 
B 4 1 0 
C 4 0 1 
D 4 | 由 











1) 对 于 4 组 协 变量 分 别 得 到 回归 均值 z*8 的 样本 , 并 在 同一 个 图 中 画 出 它们 
的 直方 图 (使 用 命令 blinregexpected( ) ); 










































































2) 对 于 4 组 协 变量 分 别 得 到 预测 响应 变量 的 预测 值 y 的 样本 , 并 在 同一 个 图 
中 画 出 它们 的 直方 图 (使 用 命令 blinregpred( )); 
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附录 A ” 秩 与 结 的 介绍 


设 有 独立 同 分 布 的 样本 Xi,X2,... ,Xi， 不 妨 假设 总 体 是 连续 型 随 
机 变量 ， 从 而 以 概率 1 保证 样本 单元 Xi,X2,...,X 互 不 相等 ， 将 样本 单 
元 有 小 到 大 排列 成 XU < Xa < .< Xtwy， 著 X= Xiny， 则 
称 Xi(i = 1,2,… ,nn) 在 Xi1, 2,… ,中 的 秩 为 Ri, 简称 X; 的 秩 为 Ri，R; = 
1,2,… ,n.， 秩 方法 的 基本 思想 是 ， 用 X; 的 秩 Ri 代 蔡 X; 作 统计 推 凯 ，R = 
(Ri R2,.…., Rr) 以 及 由 R 构 造 的 任意 的 统计 量 都 称 为 秩 统 计量 . 

BR 服从 离散 分 布 它 取 m 个 值 . 由 于 样本 Xi,X2,… ,XX 独立 同 分 
布 , 所 以 R 取 任意 一 组 值 (rira ,ro) 的 概率 是 1/nl， 其 中 (rayra ,7m) 
是 (1,2,...,n) 的 任意 一 个 排列 ， 这 说 明 R 服 从 均匀 分 布 . 由 此 可 见 ， 秩 统计 
量 的 分 布 与 总 体 服从 什么 样 的 分 布 无 天， 这 束 是 称 秩 方法 为 非 参 数 方法 的 原 
因 . 






















































































































































































由 于 R 服 从 均匀 分 布 , 所 以 单个 样本 的 秩 Ri(i = 1,2,.….,n) 也 服从 均匀 分 
布 :P(R =7) = ,i = 1,2,...,n, 从 而 有 : 
定理 1 对 任意 的 i = 1,2,...,n, 都 有 


n2—1 


n 二 1 
E(R;) = a Var(R) = 





同样 地 , Ri 和 Rj(i 冯 7 的 联合 分 布 也 是 均匀 分 布 
1 


n(ni) : 








P(R; Ti, R; rj) 


其 中 m 关 7;, 从 而 有 : 


定理 2 对 任意 的 1 < i <j<n, 都 月 Cov(Ri, Rj;) = ee 


12 | 
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在 许多 情况 下 , 数据 中 有 相同 的 数字 , 称 为 结 (tie》. 结 中 数字 的 秩 为 它们 
按 升 暴 排 列 后 位 置 的 平均 值 . 比如 数据 2, 3, 3, 6, 10 这 五 个 数 的 秩 分 别 为 1, 2.5， 
2.5, 4, 5. 也 就 是 说 , 处 于 第 二 和 第 三 位 置 的 两 个 3 得 到 秩 (2+3) /2=2.5. 这 样 
的 秩 称 为 中 位 秩 . 如 果 结 多 了 , 零 分 布 的 大 样本 公式 就 不 准 了 , 因此 需要 修正 . 
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附录 B “及 的 图 形 界面 


8B.1 R Commander 





不 同 于 S-PLUS, RR 自 带 的 RGui 没 有 提供 专门 的 用 于 统计 分 析 的 菜单 ， 然 
而 John Fox 基 于 及 开发 了 一 套 进行 基础 统计 分 析 的 菜单 驱动 的 分 析 系 统 , 称 
为 R Commander: A Basic-Statistics GUI for R. 有 关 的 信息 可 参见 John 
Fox 的 主页 . 

















http://socserv.mcmaster.ca/jfox/Misc/Remdr/index.html 








下 面 简单 介绍 一 下 R Commander 的 安装 、 功 能 与 使 用 等 . 


B.1.1 功能 








R Commander 是 一 个 交互 式 菜 单 / 对 话 框 系统 (menu/dialog-box inter- 
faces)， 用 于 进行 数据 的 读 、 写 、 转 换 及 常用 的 统计 分 析 . 作者 还 添加 了 线 
性 与 广义 线性 模型 等 统计 分 析 工 具 . 


























B.1.2 (网 络 ) 安 装 























R Commander 的 网 络 安装 比较 方便 , 但 需要 较 长 的 时 间 . 其 步骤 如 下 : 


























。 启动 R. R 缺 省 的 安装 为 MDI 模 式 , 建议 改 为 SDI 模 式 . 这 可 通过 沫 单 “ 编 
辑 ” 下 的 “GUI 选 项 ”设置 ; 


。 点 击 菜单 “程序 包 ” =>“ 安 装 程序 包 ” 
。 选择 一 个 较 快 的 镜像 站 点 (CRAN Mirror) 
。 选择 Remdr 安装 . 期 间 会 自动 安装 其 它 必 要 的 程序 包 , 时 间 较 长 ! 
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B.1.3 “运行 





1) 方法 1: 在 Reui 下 通过 “程序 包 ”=>“ 载 入 程序 包 ” 加 载 Rcmdr 程 序 包 ; 
2) 方法 2: 在 RGui 的 命令 窗口 键入 命令 


> library (Remdr) 


此 后 就 激活 R Commander, 如 图 B-1 所 示 . 


R Commander 


File Edit Data Statistics Graphs Models Distributions Tools lelp 


R EE Data set: Edit data set | View data se Model: | <No active model> 


Script Window 


Dutput Window 


Messages 


NOTE: R Cormmander Version 1.2-1: Wed Aug 01 15:46:29 2007 





图 B-1 R Commander 的 窗口 . 


B.1.4 结构 与 使 用 


R Commander 窗 口 从 上 到 下 的 组 成 如 下 : 
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Ee 




















。 主 菜单 (Menu)， 包 括 : File, FEdit, Data, Statistics, Graphs, 
Models, Distribution, Tools 和 Help. 























。 工具 条 (Tool bar), 包括 : Data set, FEdit data set, View data set 
和 Model. 


。 命令 (代码 ) 窗 口 (Scipt Window)， 通过 菜单 所 进行 的 操作 的 RR 代 码 在 这 
里 显示 出 来 , 并 立即 被 执行 ,在 这 里 你 也 可 以 修改 已 有 的 代码 , 也 可 以 
输入 自己 的 命令 , 按 Scrip 窗 口 右 下 方 的 Submit 按 钮 就 可 发 送 命令 让 及 执 
行 . 通过 菜单 进行 的 统计 分 析 指 向 (激活 ) 一 个 数据 集 . 一 旦 读 入 一 个 新 的 
数据 集 , 它 就 被 激活 . 


。 输出 窗口 (0utput Window): Scrip 窗 口中 执行 的 命令 将 在 0utput 窗 口 
中 重新 以 红色 显示 出 来 , 并 且 给 出 相应 的 结果 . 如 果 是 作 图 , 则 启动 R 
Graphics 页 面 . 



































































































































。 信息 窗口 (Messages): 这 里 主要 列 出 代码 运行 时 出 现 的 错误 信息 ， 关 以 
红色 显示 . 





详细 请 阅读 随 R Commander 安 装 的 Help 下 的 Introduction to R Commander: 
Getting Started With the R Commander (John Fox，2006). 


在 R Commander 中 进行 数据 分 析 的 步骤 如 下 : 











1) 通过 Data 荣 单 建立 或 载 入 数据 . 之 后 在 Data set 左 侧 出 现 数据 集 的 名 字 ; 











2) 通过 菜单 的 Statistics，Graphs，Models，Distributions 等 进行 有 
针对 性 的 分 析 . 荣 单 的 有 些 项 目 是 灰色 的 ， 表 示 此 项 当前 不 可 使 用 . 
具体 参看 帮助 文件 的 菜单 树 (Menu tree). 
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下 面 主要 就 PMG 的 功能 、 安装 与 基本 的 使 用 方法 作 一 简单 的 介绍 . 





B.2.1 功能 
































PMG 为 男 一 款 用 于 基础 统计 分 析 的 菜单 驱动 分 析 系统 ， 但 与 R 
Commander 不 同 的 是 其 动态 的 对 话 框 , 即 我 们 可 以 用 鼠标 的 拖拉 完成 一 系 
列 的 作 图 与 具体 的 统计 分 析 工 作 ， 包 提 
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\item 描述 性 统计 分 析 
\item 数据 的 概括 
\item 常规 的 统计 推断 
\item 线性 回归 分 析 








> install.packages("pmg", dep=TRUE) 
> require(pmg) 


此 后 就 激活 PMG, 如 图 C-1 所 示 . 


~P EG Dialogs 


File Data Plots Tests Models Help 


喝 回 四 加 


quit Save plotnotebook help 


Filter by: | data sets andmodels ™ Data About PMG 区 


names 4 type 1 PMG 
Poor Man's GU! 
» SP500 numeric Version 0.9-37 
http:iiywwww.math.csi.cuny.eduipmy 
Comments to pmgRgyui@ymail.com 
by John Verzani with contributions by Yvonnick Noel 
Simple GUI for R using gidgets. 





| Checkfor updates 





电 Command area 


[#7 下‘o)| 保存 (9) | 编辑 全) |[ 滞 除 (OC [evaluate [history] 











图 B-2 PMG 的 窗口 . 
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B.2.3 ”结构 与 使 用 





PMG 窗 口 从 上 到 下 的 组 成 如 下 : 























e 窗口 上 方 第 一 排 的 主 菜 单 (Menu): 包括 File, Data, Plots, Tests,， 











Models 和 Help. 





AAA 


























e 窗口 上 方 第 二 排 的 工具 条 (Tool bar): 包括 quit，save, plotnotebook 


和 help. 


e 窗口 左 侧 的 快速 拖 动 区 域 (quick drop area): 从 上 到 下 各 按钮 分 
别 为 数据 的 编辑 (data.entry( ))、 数 据 的 作 图 (plot( ))、 数 据 的 概 





括 (summary( )) 和 数据 的 移 除 (rm( 


)). 














e 下 侧 的 命令 区 域 (command area): 看 











FE 这 日 








你 可 以 输入 或 复制 自己 的 命令 ， 





按 evaluate 按 钮 可 发 送 命 令 让 RR 执行, 上面 通 过 拖拉 的 方式 运行 的 命令 

















和 结果 也 在 这 里 显示 出 来 . 





。 中 间 较 大 的 为 对 话 区 域 : 许多 带 选 项 的 命令 , 如 boxplot( ) 的 选项 会 在 




















这 里 出 现 , 等 待 你 的 给 出 ( 特 出 拉 或 直接 输入 ). 





下 面 举例 来 说 明 PMG 的 动态 拖拉 式 操作 过 程 . 




















1) 打开 数据 集 : 通过 “Data” 一 “Load data set...” 打 开 数 据 集 women; 














2) 计算 变量 weight 的 均值 : 通过 “Data” 人 一 “Univariate summaries” 一 

















“mean” 在 对 话 区 域 打开 函数 mean( ) 及 选项 ; 将 women 的 变量 weight 用 



































鼠标 拖拉 到 x= 处 , 再 按 “ 确 定 ” 投 钮 . 结果 得 到 如 图 C-2 所 示 的 显示 . 


3) 计算 并 作出 分 位 数 : 通过 “Data” 二 “Univariate summaries” 一 
“quantiles” 在 对 话 区 域 打开 函数 quantile( ) 及 选项 ; 将 women 的 
变量 weight 用 鼠标 拖拉 到 x 处 再 选择 probs 的 一 组 值 ， 壁 如 probs: 
c(0.25，0.5，0.95), 结果 得 到 如 图 C-3 所 示 的 画面 . 









































其 它 功 能 与 用 法 ,可 通过 菜单 各 条 目的 在 线 帮 助 或 尝试 了 解 , 在 些 不 再 台 
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P 下 G Dialogs 


File Data Plots Tests Models Help 


quit Saye plotnotebook help 

















Eee | date sets Data | AboutPMG x | meanO x | 


names 4 type data 
日 可 women dataframe 














™ height numeric 
省 Jwomen$weight 


» weight Numeric 


|I©|I0I® 





Arguments 





trim |0.00 












































Command area 


打开 (Q) | 保存 名) | 编辑 {E) | 涪 除 (0) evaluate history 


























> nean(x = wonensweight, trig = 0, na.rg = TRUE) 
[1] 136.7333 








B-3 PMG 求 样本 均值 时 的 窗口 





P 下 G Dialogs 


File Data Plots Tests Models Help 
虽 | 回 加 


quit Saye plotnotebook help 


Filter by | data sets 图 | Data | About PMG x | quantile0 X meanO x 


names 4 type 
日 可 women dataframe 
































™ height numeric 


®@I©|l0I® 


» Wweight numeric 








下 womens$weight 


probs: [ct.25,.5,.75) 








Quantiles: 
25% 50% 75% 











BCommand area 


打开 (Q) | 保存 (9) 上 | 编辑 E)| 清除 [Ceyaluate histom 


























> Rean(x = wonensweight, trig = 0, na.rg = TRUE) 
[1] 136.7333 





B-4 PMG 求 分 位 数 时 的 窗口 . 
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WinEdt 在 是 一 款 非 常 

















Ligges 开 发 的 R WinEdt 融 合 

















C.1.1 


(网 络 ) 安 装 
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附录 C 及 的 编程 环境 
8C.1 R WinEdt 
优秀 的 程序 编辑 器 很 多 , 这 里 我 们 介绍 三 球 适 合 于 R 的 编辑 器 , 供 大 家 选 
择 


流行 的 源 代 码 编辑 器 ， 特 别 是 它 与 区 IFX 组 合 


后 的 CTEX 套 闭 软 件 已 为 科技 排版 人 员 熟 悉 . WinEdit 同 样 适 合 于 R，Uwe 























了 WinEdt 的 优点 ,并 添加 了 及 的 菜单 和 工具 条 ， 





























1 此 可 以 大 大 提供 编程 的 效率 . 下 面 对 R WinEdt 的 安装 、 功 能 与 使 用 等 作 一 简 
单 的 介绍 




















R WinEdt 的 网 络 安装 比较 方便 , 但 需要 较 长 的 时 间 . 其 步骤 如 下 : 


e 在 SDI 模 式 启动 R. 











。 点 击 菜单 “程序 包 ”=>“ 安 装 程序 包 ” 


。 选择 一 个 较 快 的 镜像 站 点 (CRAN Mirror) 
e 选择 RWinEdt 安 装 . 在 这 过 程 中 请 选择 添加 桌面 快 击 . 


C.1.2 


2) 方 


运行 





1) 方法 1: 在 RGui 下 通过 
命令 窗 





法 2: 在 RGui 的 命 








“程序 包 ”==>“ 载 入 程序 包 ” 加 载 RWinEqdt 程 序 包 ; 














| 口 键 入 命令 


C.1 R WinEdt * 427. 





> library ("RWinEdt") 


3) 方法 3: 点 击 桌 面 的 RWinEdt 快 击 键 . 





此 后 就 激活 RWinEdt, 如 图 C-1 所 示 . R WinEdt 中 的 R 菜 单 及 工具 条 如 图 C-2 所 


多 R-WinEdt ( Unregistered Copy ) - [E:\ 款 案 及 相关 资料 \R&S 滞 言 \TYC_R\R-Introduction.R] |- | 口 [X| 


DD 成 日 名 | ~ 的 网 | 阳 导 了 了 丑 | ? 


Saurre SCAIPT 


R_schools_step6.R | schools.R | dataread.R | source_88.R | Example2_2,R | gala.txt | Table2_1.R | Fig2_3.R | source_89.R | 
prob3p5,R | NN_SAT.R | normnorm.sFun R-Introduction,R |R-Examples.R | Chisq_var_test,R | simpleR_Chaptl8,R | schools,txt | schools,dat | 


Figl_3.R | Fig2_2.R | Figl_4,R | Figl_6,R | Fig2_4,R | Fig3_4,R | R 作 图 演示 ,R | examples.Rnw | foo,Rnw | example-1.Rnw | Figl1_2.R | Figll_3.R 
第 第 第 第 第 第 第 第 第 第 第 第 第 第 第 第 和 和 和 和 和 和 第 和 第 第 第 第 第 物 第 物 物 物 物 物 物 物 物 物 名 
gala<-read.table("e:\gala.txt",header=T) 








第 省 逢 御 第 逢 逢 御 第 逢 逢 第 御 逢 御 御 秆 逢 御 和 笔尖 御 和 先知 第 第 先知 第 物 笔 逢 御 先知 逢 御 物 名 
gsPart II: Numerical Summaries 

第 笔尖 第 第 笔尖 第 第 笔尖 第 御 种 御 御 御 逢 御 和 先知 御 第 御 知 第 第 御 逢 御 御 物 逢 御 先知 逢 御 物 名 
summary (gala) 

names (gala) 

gala$sp 

median(gala$sp) 

min(gala$sp) 

range (gala$ sp) 

quantile (gala$sp) 

var(galas$sp) 

sqrt (var(gala$sp)) 


sad(gala$Sp) 


8 Define a function of sad 

sd <- function(x) sqgrt(var(x)) > 

< | > 
oF" 1:1 82 Wrap Indent INS | LINE Spel 星期 三 , 1, 八 月 .2007 17:26 
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C-1 R WinEdit 的 窗口 . 


C.1.3 及 WinEdt 的 特点 
e 与 RGui 共 同 运行 


。 具 有 WinEdt 的 强大 功能 (如 Delimiter 检 查 , 高 级 搜索 , 书签 , 宏 , 缩 进 与 
注释 的 对 齐 等 ) 























。 语法 高 亮 显示 (Syntax-Highlighting) 

。 同时 可 以 编辑 多 个 及 程序 

。 设置 简单 快速 的 按钮 与 快 击 键 ( 见 表 C-1) 

。 将 窗口 中 的 及 文件 (文件 的 所 有 代码 ) 发 送 到 及 中 运行 
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ED Tle) 
国 File Edit Format Search Insert Tools QOptions Window Help 芭 
~ F 三 |RE R-: 
口 世 日 名 交 回 了 F Re Rs FR-history (update) 向 t+ 
R-line - and go LttL 
R-line Ctrl+Alt+L 


EY 
R_schools_step6.R schools,R | dataread.r | source_88.R | Example2_2.R | gala 
prob3p5,R | NN_SAT.R | normnorm.sfun | R-Introduction,R | R-Examples.R | Chis¢ 
Figl_3,R | Fig2_2,R | Figl_4,R | Fig1_6.R | Fig2_4,R | Fig3_4.R | R 作 图 演示 ,R | 
ER code for entering the data and 下 iiRe Rsouree - and 可 Atts 
# analysis from Section 5.5 Of "BayeslRs seript Str 

多 function Ctrl+ALt+P 
# TO run, the Bugs model must be in 七 多 for Cultiuto myourewoek 
# directory and you must load in the | 多 让 culthur | file (see 


# http://ww. stat.columbia.edu/~gelma 上 让 "" 0 














Set R ~--mdi mode (english only!) 
Set R 一 sdi mode (default) 
Set S-Plus mode (bugs!) 


J<-8 
和 
sigqmaY <= et15710167117971Lr10 19) 
Schools .data <- 21ist ("J", “y", "sigma.y") 
schools.inits <- Eunction() 

了 ist (theta=rnorm(J,0,1), mu.theta=rnorm(1,0,100), 

sigma.theta=runif(1,0,100)) 

schools.parameters <- c("theta", “mu.theta", "sigma.theta") 





# run in winbugs14 


schools.sim <- bugs (schools.data, schools.inits, schools.parameters, " 





Wirap Indent IN5 LINE Spel 星期 三 , 1, 八 月 ,2007 17:52 





C-2 R WinBdit 中 R 菜 单 . 
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WinEdt 中 选中 的 代码 发 送 到 及 中 运行 

单行 代码 发 送 到 及 中 运行 

及 时 更 新 历史 命令 记录 文件 .Rhistory, 以 便 重复 使 用 旧 的 
提供 结构 化 的 模块 , 如 : for(_ in _){_} 











全 
心 





C.1.4 R WinEdt 的 菜单 与 热 键 


8C.2 Tinn-R 





Tinn 也 是 一 个 很 好 的 文本 编辑 器 , 它 与 及 的 结合 与 R WinEdt 类 似 . 


1) 下 载 : http://www.sciviews.org/Tinn-R/ 
2) 安装 : 点 击 Tinn-R x.xx.x.x setup.exe 


3) 运行 


。 启动 及 




















C.3 SciViews R . 429 . 
表 C-1 R WinEdt 的 菜单 与 热 键 

命令 热 键 荣 单 图 标 说 明 
Brackets Check Ctrl+F12 舌 号 配对 检查 
R History ALT+H R HIST. 保存 历史 记录 
R-line - and go ALT+L 单行 发 送 
R-line Ctrl+TALT+EL 单行 发 送 并 返回 
R<- R-paste - and go ALT+P R<-PASTE 选中 后 发 送 
R<- R-paste Ctrl+ALT+P 选中 后 发 送 并 返回 
R<- R-source - and go ALT+S R<-SOURCE ”R 文 件 发 送 ( 先 打开 ) 
R<- R-script Ctrl+ALT+S RSCRIPT R 文 件 发 送 并 返回 
function Ctrl+Alt+F 生成 函数 框架 
for Ctrl+Alt+O 生成 for 循 环 框架 
让 Ctrl 二 Alt 二 I 生成 if 框架 
ifelse Ctrl 十 Alt 十 忆 生成 ifesle 框 架 
<- Ctrl 十 - 生成 赋值 符号 



































e。 点 击 快 击 按 扭 , 启动 Tinn-R 








4) 使 用 : 与 R WinEdt 类 似 ， 与 R WinEqdt 不 同 








card 对 于 熟悉 R 











见 Tinn-R FAQ: 




































































的 一 个 特点 是 ，Tinn-R 的 R 














的 函数 及 编辑 是 非常 有 有 























日 的 . 更 多 关于 Tinn-R， 


http://wuw.sciviews.org/Tinn-R/Tinn-R_FAQ.html 





























Tinn-R 中 的 RR 菜单 及 如 医 








SciViews R 与 Tinn-R 类 似 ， 它 是 1 





C-3 所 示 . 


8C.3 SciViews R 




















JoséClaudio Faria, Marta Rufino 开 发 . 


Philippe Grosjean, Eric Lecoutre, 


1) 下 载 : http://www.sciviews.org/SciViews-R/ 





2) 安装 : 点 击 SciViews-R_x.x-xx Setup .exe 


态 





3) 运行 : 点 击 快 击 按 扭 SciViews R Console 


430 ， 
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本 Tinn-R — [E:\ 教 案 及 相关 资料 \R&S 语 言 \TTC_RVYector_3-R] 
国 Eie Project Edt Fomat Search Options Tt Yew Window Web Help 


Roeui 


Server: connections and tests 














Send toR 


Fie (source) 





Editor: current lne to top 


医 Ko-Kang Wang's "R Programming Workshor 
# Program 1 -- Unvectorized scripts witi 
淹 Hotkeys of R 
x = Seq(l-4, 4, by = .0001) 

了 = garalx) 】 Database 
plot.newt) 

plot.window{xlim = cl-4, 4), xaxs = "i", 


Controling R 


ylim = c(-5, 5), yaxs = "i") 

sblinelh = c(-(1:4)}, 1:4), col = "gray") 
ablinelv = c{-(1:3), 1:3), col = "gray") 
abline(lh = 0, v= 0, lvd = 1.25) 
lines{x, y) 

Yoff = . 

xoff = .075 

text (rep(0，11) - xoff, -5:5 - yoff, 
-5:5, xpd = T, adj = cl(1,1)) 

text(-4:4 - xoff, rep(0, 9) - yoff, 
-4:4, xpd = T, adj = cl1,1)) 

boxt) 


< 





Al 


Selection (source) 


Selection 














Data: selectior 
D Une 


Lines to end page 


| betaln. shal Cursor to beginning line 

| P rbinomln, siz 

| rcauchy[n, I¢ 
rchisqln. df] 
rexpln, rate=1] 
fn. df. df2] 
rgammaln, shape, scale=1] 
rgeomln, prob) 


Cursor to end line 





|Binomial 























Lin 1720: Col 1 Normal mode smjormal 了 ile size: 1 KB Tinn-R hotkeys acti' 





C-3 Tinn-R 中 及 菜单 . 


注 : 不 同 于 R WinEdt 和 Tinn-R, 启动 SciViews R 会 自动 启动 R, 并 使 之 


成 为 SciViews R 的 一 部 分 . 














4) 使 用 : 点 击 文本 编辑 器 左 侧 的 小 三 角形 就 可 执行 光标 所 在 的 行 或 选中 的 








代码 段 . 详 见 SciViews R 主 页 的 手册 . 


SciViews R 中 的 窗口 布局 如 图 C-4 所 示 . 








SciYiews R Console 
口 - 悄 学 加 电 记 CQ 各 -. 


Misce Packages Help 





: R2HTHL 
: svMisc 
: svIO 
载 入 需要 的 程 辑 包 svviews 
在 启动 过 程 中 - Warning messages: 
1: use of NULL environment is deprecated 
of NULL environment is deprecated 
> 


x 
sunmary (gala) 
names(gala) 
gala$sp 


range(gala$Sp) 
4 


a Dockl 


| 他 Defaut 








SciViews documentation 


Any documentation will be displayed here (you 
shouid eniarge this window), Reseiect the 
“documentation" entry in the dropdown list to go 








[75 [BUF Create anew document 24 
a 


C-4 ”SciViews R 的 窗口 布局 . 
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本 书 特色 




















统计 学 以 数据 为 研究 对 象 , 它 是 以 概率 统计 为 基础 、 应 用 统计 学 的 基本 原 
理 和 方法 并 结合 统计 软件 对 实际 数据 进行 收集 、 整理 和 分 析 的 一 门 科 学 . 数据 
的 统计 分 析 涉 及 大 量 的 统计 计算 , 包括 向 量 与 矩阵 的 运算 ,这 时 传统 的 手工 或 
基于 计算 器 的 计算 几乎 无 法 进行 ,必须 借助 于 现代 化 的 计算 工具 一 统计 软件 ， 
特别 是 在 参数 不 断 增多 、 数 据 维 数 不 断 增 大 、 变 量 之 间 相 关 性 不 断 密切 的 经 
济 、 金融、 生物 、 制药、 社会 、 心 理 等 领域 , 统计 软件 的 使 用 显得 尤为 重要 . 因 
此 我 们 不 仅 要 通过 数理 统计 这 门 课程 的 学 习 掌握 统计 学 中 的 基本 理论 与 方法 ， 
更 应 该 将 这 些 理论 与 方法 运用 于 实践 , 并 通过 统计 软件 用 图 形 直 观 展示 数据 ， 
存在 的 特征 , 用 具体 的 统计 方法 揭示 其 中 存在 的 规律 , 解决 一 些 具体 的 实际 问 
题 . 作为 自由 、 免费 、 源 代码 开放 、 维 护 更 新 及 时 的 软件 、 其 强大 的 图 形 展示 和 
统计 分 析 功 能 ,使 及 语言 成 为 学 好 数理 统计 最 好 的 工具 . 


作为 数据 统计 分 析 的 教科 书 , 本 书 有 如 下 儿 个 特点 



















































































































































































































































































































































































1) R 软 件 介 绍 精简 实用 ， 自 成 一 体 ; 


2) 原理 讲解 与 软件 使 用 高 度 结合 ; 




































































3) 内 容 全 面 , 涵盖 统计 各 学 科 需 要 的 主要 统计 方法 ; 











4) 内 容 安排 循序 渐进 ， 又 相对 独立 , 不 失 为 数据 统计 分 析 的 工具 书 ; 



































5) 突出 对 原理 与 方法 的 理解 、 更 注重 实例 通过 及 的 求解 过 程 和 对 结果 的 解 


释 . 














6) 全 书 使 用 ETEX 编 辑 排版 ,印刷 质 量 一 流 , 是 中 英文 人 TEX 排版 的 经 典 作 
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